Automate d'arbres

En informatique théorique, plus précisément en théorie des langages, un automate d'arbre est une machine à états qui prend en entrée un arbre, plutôt qu'une chaîne de caractères pour les automates plus conventionnels, comme les automates finis.

Introduction

Comme pour les automates classiques, les automates d'arbres finis (FTA pour finite tree automata en anglais) peuvent être déterministes ou pas. Suivant la façon dont les automates se « déplacent » sur l'arbre qu'ils traitent, les automates d'arbres peuvent être de deux types : (a) ascendants ; (b) descendants. La distinction est importante, car si les automates non déterministes (ND) ascendants et descendants sont équivalents, les automates déterministes descendants sont strictement moins puissants que leurs homologues déterministes ascendants. En effet, les propriétés d'arbres spécifiées par les automates déterministes descendants ne peuvent dépendre que des propriétés de chemins.

Définitions

Alphabet gradué

Un alphabet gradué (ranked alphabet en anglais) est un alphabet F {\displaystyle F} muni d'une fonction ar {\displaystyle \operatorname {ar} } qui, à chaque symbole f {\displaystyle f} de F {\displaystyle F} , associe un entier naturel ar ( f ) {\displaystyle \operatorname {ar} (f)} qui est son arité (le nombre d'arguments qu'elle requiert).

On considère les constantes comme des opérateurs nullaires (i.e. d'arité 0). Parfois, l'ensemble des symboles d'arité 0 est partagé en deux sous-ensembles, les constantes et les variables.

Un alphabet gradué est donc une signature (ensemble de symboles de constante, de fonction et de relation), considérée comme indépendante de l'algèbre sur laquelle elle agit éventuellement.

Terme, arbre

  • Étant donné un alphabet gradué F {\displaystyle F} , les termes (de base) ou arbres sur F {\displaystyle F} sont définis comme suit :
  1. Un symbole de F {\displaystyle F} d'arité 0 est un terme ;
  2. Si f {\displaystyle f} est un symbole d'arité n {\displaystyle n} , et si t 1 , t 2 , , t n {\displaystyle t_{1},t_{2},\ldots ,t_{n}} sont des termes, alors la suite ( f , t 1 , t 2 , , t n ) {\displaystyle (f,t_{1},t_{2},\ldots ,t_{n})} est un terme ; ce terme est généralement noté f ( t 1 , t 2 , , t n ) {\displaystyle f(t_{1},t_{2},\ldots ,t_{n})}  ;
  3. Tout terme s'obtient, à partir des symboles d'arité 0, par un nombre fini d'applications de la règle précédente.

On peut voir un terme ( f , t 1 , t 2 , , t n ) {\displaystyle (f,t_{1},t_{2},\ldots ,t_{n})} comme un arbre. La racine de l'arbre a pour étiquette le symbole f {\displaystyle f} , et les enfants de la racine sont les termes t 1 , t 2 , , t n {\displaystyle t_{1},t_{2},\ldots ,t_{n}} .

  • Un terme clos est un terme sans variable.
  • Un terme linéaire est un terme où chaque variable apparaît au plus une fois.
  • Un contexte est un terme linéaire.
  • On définit la hauteur d'un terme t {\displaystyle t} par :

h ( t ) = { 0 si  t  est d'arité  0 max ( h ( t 1 ) , . . . , h ( t n ) ) + 1 si  t = f ( t 1 , . . . t n ) {\displaystyle h(t)=\left\{{\begin{array}{c @{=} c}0&{\text{si }}t{\text{ est d'arité }}0\\\max(h(t_{1}),...,h(t_{n}))+1&{\text{si }}t=f(t_{1},...t_{n})\\\end{array}}\right.}

Automate d'arbres ascendant

Un automate d'arbres fini ascendant (bottom-up finite tree automaton en anglais) sur F {\displaystyle F} est défini par les objets :

( Q , F , Q f , Δ ) {\displaystyle (Q,F,Q_{f},\Delta )}

Ici Q {\displaystyle Q} est un ensemble fini d'états, F {\displaystyle F} est un alphabet gradué, Q f Q {\displaystyle Q_{f}\subseteq Q} est un ensemble d'états finaux, et Δ {\displaystyle \Delta } est un ensemble de règles de transition, c'est-à-dire de règles de réécritures qui transforment les nœuds dont les racines des fils sont des états en nœuds dont les racines sont des états. Δ {\displaystyle \Delta } est constitué d'éléments de la forme ( f ( q 1 , . . . , q n ) q ) {\displaystyle (f(q_{1},...,q_{n})\rightarrow q)} , où q 1 , . . . , q n , q {\displaystyle q_{1},...,q_{n},q} sont des états de Q {\displaystyle Q} , et f F {\displaystyle f\in F} est un symbole d'arité n {\displaystyle n} . Par conséquent l'état d'un nœud est déduit des états de ses fils.

Il n'y a pas d'état initial en tant que tel, mais les règles de transition pour les symboles constants peuvent être considérées comme des états initiaux. L'arbre est accepté si l'état de la racine est un état acceptant.

Exemple

Un automate d'arbres ascendant reconnaissant les expressions booléennes valant vrai sur l'alphabet { e t : 2   ,   o u : 2   ,   n o n : 1   ,   v r a i : 0   ,   f a u x : 0 } {\displaystyle \{et:2\ ,\ ou:2\ ,\ non:1\ ,\ vrai:0\ ,\ faux:0\}} est A = ( Q , F , Q f , Δ ) {\displaystyle A=(Q,F,Q_{f},\Delta )} avec:

Q = { q 0 ,   q 1 } {\displaystyle Q=\{q_{0},\ q_{1}\}}

F = { e t ,   o u ,   n o n ,   f a u x ,   v r a i } {\displaystyle F=\{et,\ ou,\ non,\ faux,\ vrai\}}

Q f = { q 1 } {\displaystyle Q_{f}=\{q_{1}\}}

Δ = { f a u x q 0 v r a i q 1 e t ( q a , q b ) q m i n ( a , b ) o u ( q a , q b ) q m a x ( a , b ) n o n ( q a ) q 1 a {\displaystyle \Delta =\left\{{\begin{array}{c c c}faux&\rightarrow &q_{0}\\vrai&\rightarrow &q_{1}\\et(q_{a},q_{b})&\rightarrow &q_{min(a,b)}\\ou(q_{a},q_{b})&\rightarrow &q_{max(a,b)}\\non(q_{a})&\rightarrow &q_{1-a}\end{array}}\right.}

Automate d'arbres descendant

Un automate d'arbres fini descendant sur F {\displaystyle F} est défini par :

( Q , F , I , Δ ) {\displaystyle (Q,F,I,\Delta )}

Q {\displaystyle Q} est un ensemble fini d'états, F {\displaystyle F} est un alphabet gradué, I Q {\displaystyle I\subseteq Q} est l'ensemble des états initiaux, et Δ {\displaystyle \Delta } l'ensemble des règles de transition, constitué d'éléments de la forme ( ( q , f ) ( q 1 , . . . , q n ) ) {\displaystyle ((q,f)\rightarrow (q_{1},...,q_{n}))} , où q 1 , . . . , q n , q {\displaystyle q_{1},...,q_{n},q} sont des états de Q {\displaystyle Q} , et f F {\displaystyle f\in F} est un symbole d'arité n {\displaystyle n} .

Il y a deux différences avec les automates d'arbres ascendants : d'abord, I Q {\displaystyle I\subseteq Q} , l'ensemble de ses états initiaux, remplace Q F {\displaystyle Q_{F}}  ; ensuite, ses règles de transition sont l'inverse, c'est-à-dire des règles de réécriture qui transforment les nœuds dont les racines sont des états en nœuds dont les racines des fils sont des états. L'arbre est accepté si toutes les branches sont complètement traversées jusqu'au bout.

Propriétés

Déterminisme

Un automate d'arbres est déterministe s'il ne possède aucune paire de règles de transition ayant le même côté gauche. Cette définition correspond à l'idée intuitive que pour qu'un automate soit déterministe, une transition et une seule doit être possible pour un nœud donné. De plus, pour un arbre descendant ( Q , F , I , Δ ) {\displaystyle (Q,F,I,\Delta )} , on a | I | = 1 {\displaystyle |I|=1} .

Pour les automates d'arbres non déterministes, on peut remarquer qu'il suffit d'inverser les règles de transition pour transformer un automate ascendant en un automate descendant et inversement; les états finaux deviennent les états initiaux. Ainsi, les automates d'arbres descendants non déterministes sont équipotents à leurs homologues ascendants.

Dans le cas déterministe, les arbres ascendants sont strictement plus puissants que les automates d'arbres descendants. En effet, pour les premiers, l'état d'un nœud est déterminé par l'étiquette de ses n {\displaystyle n} fils, alors que pour les seconds, les états des n {\displaystyle n} fils sont déterminés seulement par l'étiquette de leur père.

Démonstration

Considérons le langage L = { f ( a , b ) , f ( b , a ) } {\displaystyle L=\{f(a,b),f(b,a)\}} défini sur l'alphabet F = { f : 2   ,   a : 0   ,   b : 0 } {\displaystyle F=\{f:2\ ,\ a:0\ ,\ b:0\}} .

  • L {\displaystyle L} est reconnaissable par l'automate ascendant A = ( Q , F , Q f , Δ ) {\displaystyle A=(Q,F,Q_{f},\Delta )} où:

Q = { q a , q b , q f } {\displaystyle Q=\{q_{a},q_{b},q_{f}\}} , Q f = { q f } {\displaystyle Q_{f}=\{q_{f}\}} et Δ = { a q a b q b f ( q a , q b ) q f f ( q b , q a ) q f {\displaystyle \Delta =\left\{{\begin{array}{c c c}a&\rightarrow &q_{a}\\b&\rightarrow &q_{b}\\f(q_{a},q_{b})&\rightarrow &q_{f}\\f(q_{b},q_{a})&\rightarrow &q_{f}\end{array}}\right.}

  • Supposons que L {\displaystyle L} est accepté par un automate descendant déterministe B = ( Q , F , I , Δ ) {\displaystyle B=(Q,F,I,\Delta )} .

B {\displaystyle B} étant déterministe, on a | I | = 1 {\displaystyle |I|=1} . Posons I = { q 0 } {\displaystyle I=\{q_{0}\}} . De plus, pour tout état q Q {\displaystyle q\in Q} et x F {\displaystyle x\in F} , Δ {\displaystyle \Delta } contient au plus une règle dont le membre gauche est ( q , x ) {\displaystyle (q,x)} .

En particulier, il existe une unique règle de transition de la forme ( q 0 , f ) ( q 1 , q 2 ) {\displaystyle (q_{0},f)\rightarrow (q_{1},q_{2})} . Et comme L = { f ( a , b ) , f ( b , a ) } {\displaystyle L=\{f(a,b),f(b,a)\}} est reconnu par l'automate B {\displaystyle B} , on a q 1 = q 2 {\displaystyle q_{1}=q_{2}} .

Donc l'automate B {\displaystyle B} reconnaîtrait les termes f ( a , b ) {\displaystyle f(a,b)} , f ( b , a ) {\displaystyle f(b,a)} mais aussi f ( a , a ) {\displaystyle f(a,a)} et f ( b , b ) {\displaystyle f(b,b)} qui n'appartiennent pas au langage L {\displaystyle L} .

L {\displaystyle L} n'est donc pas reconnaissable par un automate descendant déterministe.

Reconnaissabilité

Pour un automate ascendant, un terme de base t {\displaystyle t} (c'est-à-dire un arbre) est accepté s'il existe une réduction qui part de t {\displaystyle t} et aboutit à q ( t ) {\displaystyle q(t)} , où q {\displaystyle q} est un état final. Pour un automate descendant, un terme de base t {\displaystyle t} est accepté s'il existe une réduction qui part de q ( t ) {\displaystyle q(t)} et aboutit à t {\displaystyle t} , où q ( t ) {\displaystyle q(t)} est un état initial.

Le langage d'arbres L ( A ) {\displaystyle L(A)} reconnu par un automate d'arbres A {\displaystyle A} est l'ensemble de tous les termes de base acceptés par A {\displaystyle A} . Un ensemble de termes de base est reconnaissable s'il existe un automate qui le reconnaît. Les langages d'arbres réguliers sont les langages d'arbres reconnu par les automates d'arbres non-déterministes et les automates d'arbres déterministes ascendants.

Une propriété importante est que les homomorphismes linéaires (c'est-à-dire qui préservent l'arité) préservent la reconnaissabilité.

Un langage d'arbres finis binaires est définissable en logique monadique du second ordre (ou de manière équivalente en WMSO, pour logique monadique du second ordre faible, ou la quantification porte sur des sous-ensembles finis) si, et seulement si L {\displaystyle L} est reconnaissable par un automate ascendant[1],[2],[3].

Complétude et réduction

Un automate d'arbres fini non déterministe est complet s'il y a au moins une règle de transition disponible pour chaque combinaison possible symbole-état. Un état q {\displaystyle q} est accessible s'il existe un terme de base t {\displaystyle t} tel qu'il existe une réduction de t {\displaystyle t} à q ( t ) {\displaystyle q(t)} . Un FTA est réduit si tous ses états sont accessibles.

Lemme de l'étoile

Soit L {\displaystyle L} un ensemble reconnaissable de termes de base. Alors, il existe une constante k > 0 {\displaystyle k>0} telle que : pour chaque terme de base t {\displaystyle t} dans L {\displaystyle L} tel que h ( t ) > k {\displaystyle h(t)>k} , il existe un contexte C C ( F ) {\displaystyle C\in C(F)} , un contexte non trivial C C ( F ) {\displaystyle C'\in C(F)} et un terme de base u {\displaystyle u} tels que t = C [ C [ u ] ] {\displaystyle t=C[C'[u]]} et pour tout n 0 {\displaystyle n\geq 0} C [ C n [ u ] ] L {\displaystyle C[C'^{n}[u]]\in L} .

Fermeture

La classe des langages d'arbres reconnaissables est fermée pour l'union, la complémentation et l'intersection :

Démonstration

Soit L 1 {\displaystyle L_{1}} et L 2 {\displaystyle L_{2}} sont deux langages d'arbres, A 1 = ( Q 1 , F , Q f 1 , Δ 1 ) {\displaystyle {\mathcal {A}}_{1}=(Q_{1},F,Q_{f_{1}},\Delta _{1})} et A 2 = ( Q 2 , F , Q f 2 , Δ 2 ) {\displaystyle {\mathcal {A}}_{2}=(Q_{2},F,Q_{f_{2}},\Delta _{2})} des automates ascendants reconnaissant L 1 {\displaystyle L_{1}} et L 2 {\displaystyle L_{2}} respectivement.

On peut supposer A 1 {\displaystyle {\mathcal {A}}_{1}} et A 2 {\displaystyle {\mathcal {A}}_{2}} complets (quitte à leur ajouter un "état puits", c'est-à-dire un état non terminal tel que les transitions bloquant l'automate pointent sur cet état à la place).

On peut également supposer Q 1 Q 2 = {\displaystyle Q_{1}\cap Q_{2}=\emptyset } .

L'automate A = ( Q 1 , F , Q 1 Q f 1 , Δ 1 ) {\displaystyle {\mathcal {A}}=(Q_{1},F,Q_{1}\setminus Q_{f_{1}},\Delta _{1})} reconnaît L 1 ¯ {\displaystyle {\overline {L_{1}}}} .

L'automate A = ( Q 1 × Q 2 , F , Q f 1 × Q f 2 , Δ ) {\displaystyle {\mathcal {A}}=(Q_{1}\times Q_{2},F,Q_{f_{1}}\times Q_{f_{2}},\Delta )} reconnaît L 1 L 2 {\displaystyle L_{1}\cap L_{2}} , où f ( ( q 1 , q 1 ) , . . . , ( q n , q n ) ) ( q , q ) {\displaystyle f((q_{1},q_{1}'),...,(q_{n},q_{n}'))\rightarrow (q,q')} avec f ( q 1 , . . . , q n ) q {\displaystyle f(q_{1},...,q_{n})\rightarrow q} dans Δ 1 {\displaystyle \Delta _{1}} et f ( q 1 , . . . , q n ) q {\displaystyle f(q_{1}',...,q_{n}')\rightarrow q'} dans Δ 2 {\displaystyle \Delta _{2}} .

L'automate A = ( Q 1 × Q 2 , F , Q f 1 × Q 2 Q 1 × Q f 2 , Δ ) {\displaystyle {\mathcal {A}}=(Q_{1}\times Q_{2},F,Q_{f_{1}}\times Q_{2}\cup Q_{1}\times Q_{f_{2}},\Delta )} reconnaît L 1 L 2 {\displaystyle L_{1}\cup L_{2}} , où f ( ( q 1 , q 1 ) , . . . , ( q n , q n ) ) ( q , q ) {\displaystyle f((q_{1},q_{1}'),...,(q_{n},q_{n}'))\rightarrow (q,q')} avec f ( q 1 , . . . , q n ) q {\displaystyle f(q_{1},...,q_{n})\rightarrow q} dans Δ 1 {\displaystyle \Delta _{1}} et f ( q 1 , . . . , q n ) q {\displaystyle f(q_{1}',...,q_{n}')\rightarrow q'} dans Δ 2 {\displaystyle \Delta _{2}} .

Théorème de Myhill-Nerode

Congruence sur des langages d'arbres

  • Une congruence sur des langages d'arbres est une relation {\displaystyle \equiv } telle que : u i v i 1 i n f ( u 1 , , u n ) f ( v 1 , , v n ) {\displaystyle u_{i}\equiv v_{i}1\leq i\leq n\Rightarrow f(u_{1},\ldots ,u_{n})\equiv f(v_{1},\ldots ,v_{n})}  ;
  • Elle est à index fini si son nombre de classes d'équivalence est fini ;
  • Pour un langage d'arbres L {\displaystyle L} donné, u L v {\displaystyle u\equiv _{L}v} si pour tout contexte C C ( F ) {\displaystyle C\in C(F)} , C [ u ] L {\displaystyle C[u]\in L} si et seulement si C [ v ] L {\displaystyle C[v]\in L} .

Théorème de Myhill-Nerode

Les trois affirmations suivantes sont équivalentes :

  1. L est un langage d'arbres reconnaissable ;
  2. L est l'union de classes d'équivalence d'une congruence à index fini ;
  3. La relation L {\displaystyle \equiv _{L}} est une congruence à index fini.

Notes et références

  1. (en) J. W. Thatcher et J. B. Wright, « Generalized finite automata theory with an application to a decision problem of second-order logic », Mathematical systems theory, vol. 2, no 1,‎ , p. 57–81 (ISSN 0025-5661 et 1433-0490, DOI 10.1007/BF01691346, lire en ligne, consulté le )
  2. (en) « Tree acceptors and some of their applications », Journal of Computer and System Sciences, vol. 4, no 5,‎ , p. 406–451 (ISSN 0022-0000, DOI 10.1016/S0022-0000(70)80041-1, lire en ligne, consulté le )
  3. (en) Mark Weyer, Automata Logics, and Infinite Games, Springer, Berlin, Heidelberg, coll. « Lecture Notes in Computer Science », , 392 p. (ISBN 978-3-540-36387-3, DOI 10.1007/3-540-36387-4_12, lire en ligne), p. 207–230, Theorem 12.27

Bibliographie

  • (en) H. Comon, M. Dauchet, R. Gilleron, C. Löding, F. Jacquemard, D. Lugiez, S. Tison et M. Tommasi, Tree Automata Techniques and Applications, chapitre 1, 2007 lire en ligne.

Annexes

Articles connexes

v · m
Codage
Modèles de calcul
Algorithmique
Syntaxe
Sémantique
Logique mathématique
Mathématiques discrètes
  • icône décorative Portail de l'informatique théorique