Langage rationnel

En théorie des langages, les langages rationnels ou langages réguliers ou encore langages reconnaissables peuvent être décrits de plusieurs façons équivalentes :

  • ce sont les langages décrits par les expressions régulières ou rationnelles, d'où le nom de langages réguliers ;
  • ce sont les langages obtenus, à partir des lettres et de l'ensemble vide, par les opérations rationnelles, à savoir l'union, le produit et l'étoile de Kleene, d'où le nom de langages rationnels ;
  • ce sont les langages reconnus par des automates finis, d'où le nom de langages reconnaissables.

Les langages rationnels ont de très nombreuses applications, à la fois théoriques et pratiques. Ils sont utilisés en informatique (par exemple en compilation), en linguistique (par exemple pour décrire la morphologie d'une langue), ils interviennent dans les traitements de texte, ou dans des commandes spécifiques comme grep du système Unix.

Pour la manipulation des langages rationnels et des automates, il existe de nombreux outils informatiques, notamment dans les systèmes du type Unix comme la commande lex. Le langage informatique Java fournit aussi la classe Pattern. Les algorithmes utilisés pour manipuler les langages rationnels possèdent en général une implémentation rapide et efficace.

Définition

On considère un ensemble fini A {\displaystyle A} de caractères ou lettres, appelé alphabet. Une chaîne de caractères (ou chaîne ou mot) est une suite finie, éventuellement vide, de caractères. Par exemple, la chaîne formée de la lettre a {\displaystyle a} , puis de la lettre b {\displaystyle b} , puis encore de la lettre a {\displaystyle a} , se note a b a {\displaystyle aba} .

L'ensemble des mots que l'on peut former avec ces lettres de A {\displaystyle A} est noté A {\displaystyle A^{*}} . Toute partie de A {\displaystyle A^{*}} s'appelle un langage.

Opérations rationnelles

Les opérations suivantes, définies sur les langages, sont appelées les opérations rationnelles. Soient X {\displaystyle X} et Y {\displaystyle Y} deux parties de A {\displaystyle A^{*}}  :

1. la concaténation ou le produit de X {\displaystyle X} et Y {\displaystyle Y} , noté X Y {\displaystyle XY} , est l'ensemble de mots x y {\displaystyle xy} , où x {\displaystyle x} est dans X {\displaystyle X} et y {\displaystyle y} est dans Y {\displaystyle Y} .

Par exemple, le produit de { a b , c } {\displaystyle \{ab,c\}} et de { b a , c } {\displaystyle \{ba,c\}} est { a b b a , a b c , c b a , c c } {\displaystyle \{abba,abc,cba,cc\}} ;

2. l'union ensembliste, de X {\displaystyle X} et Y {\displaystyle Y} , notée X Y {\displaystyle X\cup Y} , est l'ensemble des mots appartenant à X {\displaystyle X} ou à Y {\displaystyle Y} .

Par exemple, l'union ensembliste de { a b , c } {\displaystyle \{ab,c\}} et de { b a , c } {\displaystyle \{ba,c\}} est { a b , c , b a } {\displaystyle \{ab,c,ba\}} ;

3. l'étoile de Kleene, notée X {\displaystyle X^{*}} est le plus petit langage qui contient le mot vide ε {\displaystyle \varepsilon } , le langage X {\displaystyle X} , et qui est clos pour l'opération de concaténation. C'est aussi l'ensemble de tous les produits de tous les mots de X {\displaystyle X} .

Par exemple, { a , a b } = { ε , a , a a , a b , a a a , a a b , a b a , a a a a , a a a b , a a b a , a b a a , a b a b , } {\displaystyle \{a,ab\}^{\star }=\{\varepsilon ,a,aa,ab,aaa,aab,aba,aaaa,aaab,aaba,abaa,abab,\dots \}} .

Langages rationnels

L'ensemble des langages rationnels sur l'alphabet A {\displaystyle A} est le plus petit ensemble de langages stable pour les opérations rationnelles, et qui contient le langage vide {\displaystyle \emptyset } , les langages réduits à une lettre et le langage composé du mot vide { ε } {\displaystyle \{\varepsilon \}} .

Expressions rationnelles

Les expressions rationnelles sur l'alphabet A {\displaystyle A} sont des expressions obtenues à partir des constantes 0, 1, et de constantes a {\displaystyle a} , pour les lettres a {\displaystyle a} de A {\displaystyle A} , par des opérations suivantes :

  1. L'opération + {\displaystyle +} ou | {\displaystyle |} (pour représenter l'union)
  2. L'opération {\displaystyle \cdot } (pour représenter le produit, ce point est d'ailleurs souvent omis)
  3. L'opération {\displaystyle *} (pour représenter l'étoile de Kleene, aussi appelée itération).

Chaque expression rationnelle e {\displaystyle e} dénote un langage rationnel. Ce langage, noté L ( e ) {\displaystyle L(e)} , est défini comme suit :

  1. L ( 0 ) = {\displaystyle L(0)=\emptyset } ,   L ( 1 ) = { ε } {\displaystyle \ L(1)=\{\varepsilon \}} ,   L ( a ) = { a } {\displaystyle \ L(a)=\{a\}\,} pour chaque lettre a {\displaystyle a}
  2. L ( e + f ) = L ( e ) L ( f ) {\displaystyle L(e+f)=L(e)\cup L(f)} ,   L ( e f ) = L ( e ) L ( f ) {\displaystyle \ L(e\cdot f)=L(e)L(f)} ,   L ( e ) = L ( e ) {\displaystyle \ L(e^{\star })=L(e)^{\star }\,}

Deux expressions rationnelles sont équivalentes si elles dénotent le même langage.

Dotées d'un opérateur d'addition, d'un opérateur de produit et d'une relation d'équivalence, les expressions rationnelles sont des demi-anneaux, des algèbres de Kleene et des demi-anneaux étoilés complets.

Exemple

Les expressions ( a b ) a {\displaystyle (a^{\star }b)^{\star }a^{\star }} et ( a + b ) {\displaystyle (a+b)^{\star }} sont équivalentes.

Variantes

Pour diminuer les parenthèses dans les expressions, on omet les parenthèses résultant de l'associativité des opérations, et de donner la plus haute priorité à l'étoile de Kleene, suivie de la concaténation, puis de l'union. Formellement, cela signifie que l'on identifie des expressions qui se déduisent l'une de l'autre par l'application de ces règles[note 1].

On ajoute parfois aussi, aux opérateurs sur les expressions, la fermeture + {\displaystyle +} , donnant l'expression e + {\displaystyle e^{+}} . Le langage dénoté est donné par L ( e + ) = L ( e ) + {\displaystyle L(e^{+})=L(e)^{+}} , au sens de opérateur plus.

En revanche, l'opérateur de complémentation ne fait pas partie des opérations définissant les expressions rationnelles. Par contre, on définit les expressions rationnelles étendues comme les expressions incluant aussi l'opérateur de complémentation.

Dans les expressions régulières fournis par de nombreux outils de programmation ou d'édition, comme Unix, qed, grep, Emacs, d'autres opérateurs sont généralement ajoutés, avec des propriétés qui les rendent capables de décrire des langages qui ne sont pas rationnels. Ces expressions ne sont donc pas strictement équivalentes aux expressions rationnelles définies formellement ci-dessus.

Expressions rationnelles et automates finis

Le théorème de Kleene

Articles détaillés : théorème de Kleene et automate fini.

Le théorème de Kleene affirme que l'ensemble des langages rationnels sur un alphabet A {\displaystyle A} est exactement l'ensemble des langages sur A {\displaystyle A} reconnaissables par automate fini. C'est le résultat fondamental pour la théorie et les applications.

La correspondance entre langages rationnels et langages reconnaissables est effective : pour toute expression régulière, on peut construire effectivement, et de plusieurs façons, des automates qui reconnaissent le langage dénoté par l'expression. Réciproquement, à tout automate fini on peut associer une expression régulière qui dénote le langage reconnu par l'automate. Là aussi, il y a plusieurs méthodes, et on peut obtenir des expressions différentes, mais équivalentes.

Hauteur d'étoile

Article détaillé : Problème de la hauteur d'étoile.

La hauteur d'étoile d'une expression rationnelle e {\displaystyle e} est le nombre h ( e ) {\displaystyle h(e)} défini récursivement comme suit :

  1. h ( 0 ) = h ( 1 ) = h ( a ) = 0 {\displaystyle h(0)=h(1)=h(a)=0\,} pour toute lettre a {\displaystyle a}
  2. h ( e + f ) = h ( e f ) = max { h ( e ) , h ( f ) } {\displaystyle h(e+f)=h(e\cdot f)=\max\{h(e),h(f)\}}
  3. h ( e ) = 1 + h ( e ) {\displaystyle h(e^{\star })=1+h(e)} .

En d'autres termes, la hauteur d'étoile d'une expression est le nombre maximum d'étoiles imbriquées. Par exemple, h ( ( a + b ) ) = 1 {\displaystyle h((a+b)^{\star })=1} et   h ( ( a b ) a ) = 2 {\displaystyle \ h((a^{\star }b)^{\star }a^{\star })=2} . Ces deux expressions dénotent le même langage, on voit donc que la notion de hauteur d'étoile est liée à l'expression.

La hauteur d'étoile d'un langage rationnel X {\displaystyle X} est le minimum des hauteurs d'étoile des expressions dénotant ce langage, c'est-à-dire

h ( X ) = min { h ( e ) L ( e ) = X } . {\displaystyle h(X)=\min\{h(e)\mid L(e)=X\}.}

La question de l'existence de langages rationnels de hauteur d'étoile arbitrairement grande a été posée par Lawrence C. Eggan et résolue par Françoise Dejean et Marcel-Paul Schützenberger[1]. Le problème de la hauteur d'étoile est de calculer, de manière efficace, la hauteur d'étoile d'un langage rationnel. Ce problème a résisté longtemps. Il a été résolu la première fois en 1982 ; le meilleur algorithme, dû à Kirsten, est de 2005.

Une question qui est toujours ouverte en 2016 concerne le problème de la hauteur d'étoile généralisée (en): si l'on autorise, comme opérateur supplémentaire, l'opérateur de complémentation, le pouvoir de description des expressions rationnelles (appelées généralisées) augmente bien entendu. On ne sait toujours pas s'il existe des langages rationnels de hauteur d'étoile généralisée arbitrairement grande (ni même de hauteur 2). Les langages de hauteur d'étoile généralisée 0 sont les « langages sans étoile » caractérisés par Marcel-Paul Schützenberger.

Le théorème de Myhill-Nerode

Article détaillé : Théorème de Myhill-Nerode.

À tout langage L {\displaystyle L} de A {\displaystyle A^{*}} , on associe une relation d'équivalence L {\displaystyle \equiv _{L}} sur A {\displaystyle A^{*}} définie de la façon suivante :

u L v {\displaystyle u\equiv _{L}v\,} si et seulement si pour tout mot x {\displaystyle x} de A {\displaystyle A^{*}} , on a u x L v x L {\displaystyle ux\in L\iff vx\in L}

Cette relation est une équivalence régulière à droite car elle est compatible avec la concaténation : si u L v {\displaystyle u\equiv _{L}v} alors u x L v x {\displaystyle ux\equiv _{L}vx} .

Le théorème de Myhill-Nerode affirme qu'un langage L {\displaystyle L} est rationnel si et seulement si la relation L {\displaystyle \equiv _{L}} est d'indice fini, c'est-à-dire possède un nombre fini de classes d'équivalence.

Ce théorème a un intérêt théorique puisqu'il donne une caractérisation intrinsèque de l'automate minimal reconnaissant un langage donné. En effet, les états de l'automate fini déterministe minimal reconnaissant un langage rationnel L {\displaystyle L} sont en bijection avec les classes d'équivalence de la relation L {\displaystyle \equiv _{L}} [2]. Ce résultat est aussi à la base d'un algorithme efficace de minimisation, appelé l'algorithme de Moore.

Propriétés

Propriétés algébriques

  • Les langages rationnels sont fermés, en plus de l'union, du produit et de l'étoile, par complémentation et donc par intersection.
  • Les langages rationnels sont fermés par image miroir : si X {\displaystyle X} est un langage rationnel, alors X r {\displaystyle X^{r}} est rationnel, où X r {\displaystyle X^{r}} est l'ensemble des retournés ou images miroir des mots de X {\displaystyle X} .
  • L'ensemble des préfixes, l'ensemble des suffixes, l'ensemble des facteurs, l'ensemble des sous-mots des mots d'un langage rationnel est un langage rationnel[3].
  • Pour tout langage rationnel X {\displaystyle X} et tout mot u {\displaystyle u} , le quotient gauche
            u 1 X = { w u w X } {\displaystyle u^{-1}X=\{w\mid uw\in X\}}
    est un langage rationnel.
  • L'image d'un langage rationnel par un morphisme est un langage rationnel.
  • L'image par un morphisme inverse d'un langage rationnel est un langage rationnel
  • L'image, par une substitution rationnelle, d'un langage rationnel est un langage rationnel (une substitution σ {\displaystyle \sigma } de A {\displaystyle A^{*}} dans B {\displaystyle B^{*}} est une application de A {\displaystyle A^{*}} dans l'ensemble des parties de B {\displaystyle B^{*}} qui est un morphisme pour la structure de monoïde multiplicatif sur l'ensemble des parties de B {\displaystyle B^{*}} , c'est-à-dire σ ( ε ) = { ε } {\displaystyle \sigma (\varepsilon )=\{\varepsilon \}} et σ ( x y ) = σ ( x ) σ ( y ) {\displaystyle \sigma (xy)=\sigma (x)\sigma (y)} , où le produit dans le membre droit est le produit des parties de B {\displaystyle B^{*}} . Une substitution rationnelle est une substitution σ {\displaystyle \sigma } telle qui σ ( a ) {\displaystyle \sigma (a)} est un langage rationnel sur B {\displaystyle B} pour toute lettre a {\displaystyle a} de A {\displaystyle A} ).
  • Le produit de mélange (en anglais shuffle product) de deux langages rationnels est un langage rationnel (le produit de mélange de deux mots x {\displaystyle x} et y {\displaystyle y} est l'ensemble des mots x 1 y 1 x 2 y 2 x n y n {\displaystyle x_{1}y_{1}x_{2}y_{2}\cdots x_{n}y_{n}} , où les x i {\displaystyle x_{i}} et les y i {\displaystyle y_{i}} sont des mots, tels que x = x 1 x 2 x n {\displaystyle x=x_{1}x_{2}\dots x_{n}} et y = y 1 y 2 y n {\displaystyle y=y_{1}y_{2}\dots y_{n}} . Le produit de mélange de deux langages est la réunion des produits de mélange des mots des langages).
  • La première moitié d'un langage X {\displaystyle X} est le langage
          P ( X ) = { p A q A : | p | = | q |  et  p q X } {\displaystyle P(X)=\{p\in A^{\star }\mid \exists q\in A^{\star }:|p|=|q|{\text{ et }}pq\in X\}} .
    En d'autre termes, on coupe au milieu des mots de X {\displaystyle X} de longueur paire et on garde la première partie. Si X {\displaystyle X} est un langage rationnel, alors P ( X ) {\displaystyle P(X)} est un langage rationnel.
  • Si l'on supprime, dans les mots d'un langage rationnel, une lettre sur deux, le résultat est encore un langage rationnel.

Propriétés décidables

La plupart des questions que l’on pose habituellement pour des langages formels sont décidables pour les langages rationnels, et les démonstrations sont souvent faciles[4]. On suppose que le langage ou les langages sont donnés par des automates finis. Les propriétés sont donc plutôt des propriétés des automates finis, ou simplement des graphes finis sous-jacents. Les propriétés suivantes sont décidables :

  • Un mot donné appartient-il à un langage rationnel : il suffit de tester si le mot est reconnu par l’automate.
  • Le langage rationnel est-il vide : pour cela, on teste si, parmi les états accessibles, figure un état final.
  • Le langage contient-il tous les mots : il suffit de tester si le complémentaire est vide.
  • Le langage est-il fini : pour ce faire, on teste si l'automate, une fois émondé, a un graphe sous-jacent sans circuit.
  • Deux langages rationnels L {\displaystyle L} et M {\displaystyle M} étant donnés, a-t-on l'inclusion L M {\displaystyle L\subset M} , l'égalité L = M {\displaystyle L=M}  ?
    L'inclusion L M {\displaystyle L\subseteq M} se ramène à tester que langage L M ¯ {\displaystyle L\cap {\bar {M}}} est vide, où M ¯ {\displaystyle {\bar {M}}} est le langage complément de M {\displaystyle M} . Comme ce langage est lui-même rationnel, la décidabilité découle de la deuxième des propriétés ci-dessus. L'égalité équivaut à la double inclusion.

Une question plus difficile concerne la complexité algorithmique de ces problèmes de décision; par exemple, le calcul du complémentaire d'un langage demande la déterminisation de l'automate, et peut donc exiger une place et un temps exponentiel.

Lemme d'itération

Le lemme d'itération (en anglais pumping lemma, traduit parfois malheureusement par lemme de pompage) donne une propriété nécessaire des langages rationnels. Il s'énonce informellement comme suit : dans tout mot assez long w {\displaystyle w} d'un langage rationnel X {\displaystyle X} , on peut trouver un facteur u {\displaystyle u} non vide que l'on peut répéter un nombre arbitraire de fois, tout en restant dans le langage X {\displaystyle X} .

C'est en fait une propriété d'un automate reconnaissant le langage X {\displaystyle X}  : un mot assez long reconnu par l'automate contient nécessairement un circuit qui l'on peut parcourir un nombre arbitraire de fois, tout en restant reconnu par l'automate

Ce lemme n'est pas une caractérisation des langages rationnels : il existe des langages qui vérifient la propriété d'itération mais qui ne sont pas rationnels.

Exemples et contre-exemples

Les langages suivants sont rationnels :

  • L'ensemble des notations décimales des entiers naturels sur l'alphabet : 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 {\displaystyle 0,1,2,3,4,5,6,7,8,9} .
  • Tout langage fini.
  • L'ensemble des mots qui contient un mot fixé.
  • L'ensemble des mots qui contiennent un nombre pair de "1".
  • L'ensemble des mots qui sont l'écriture en binaire d'un entier congruent à 2 modulo 5.

Les langages suivants ne sont pas rationnels :

  • L'ensemble de mots { a n b n : n 0 } {\displaystyle \{a^{n}b^{n}:n\geq 0\}}
  • Les ensembles { a n b p : n p 0 } {\displaystyle \{a^{n}b^{p}:n\geq p\geq 0\}} , { a n b p : n p } {\displaystyle \{a^{n}b^{p}:n\neq p\}}
  • Une expression bien parenthésée est obtenue comme étant soit le mot vide, soit ( e ) e {\displaystyle (e)e'} e {\displaystyle e} et e {\displaystyle e'} sont bien parenthésées. L'ensemble des expressions bien parenthésées est aussi appelé le langage de Dyck.
    Ce n'est pas un langage rationnel car son intersection avec le langage rationnel ( ) {\displaystyle (^{\star })^{\star }} n'est pas un langage rationnel (c'est le langage précédent à un changement de symboles près).
  • L'ensemble des palindromes.

Les langages rationnels sur une seule lettre

Lorsque l'alphabet est composé d'une seule lettre a {\displaystyle a} , on connait une caractérisation précise des langages rationnels. Pour tout langage L {\displaystyle L} de a {\displaystyle a^{*}} , on note X ( L ) {\displaystyle X(L)} l'ensemble des exposants de L {\displaystyle L} , soit

X ( L ) = { n N a n L } {\displaystyle X(L)=\{n\in \mathbb {N} \mid a^{n}\in L\}} .

On a alors la propriété suivante :

Un langage L {\displaystyle L} sur a {\displaystyle a^{*}} est rationnel si et seulement si son ensemble d'exposant X ( L ) {\displaystyle X(L)} est la réunion d'un ensemble fini de progressions arithmétiques.

Une progression arithmétique est un ensemble de la forme { r + n s n N } {\displaystyle \{r+ns\mid n\in \mathbb {N} \}} . Dans cette définition, la raison s {\displaystyle s} est positive ou nulle; quand elle est nulle, la progression est réduite au singleton r {\displaystyle r}  ; on autorise aussi r {\displaystyle r} à être plus grand que s {\displaystyle s} . Par exemple, il existe un langage rationnel sur une lettre dont l'ensemble des exposants est la réunion des entiers pairs plus grand que 10, et des entiers 3 et 5. Ce langage est { a 3 , a 5 } ( a 2 ) a 10 {\displaystyle \{a^{3},a^{5}\}\cup (a^{2})^{*}a^{10}} .

Pour démontrer que le langage rationnel de l'énoncé a bien la forme indiquée, on considère un automate fini déterministe complet qui reconnaît L {\displaystyle L} . Soit q 0 {\displaystyle q_{0}} son état initial, et soit

q h = q h 1 a = q 0 a h {\displaystyle q_{h}=q_{h-1}\cdot a=q_{0}\cdot a^{h}}

l'état atteint après la lecture de h {\displaystyle h} lettres. La suite d'états

q 0 , q 1 , , q n , {\displaystyle q_{0},q_{1},\ldots ,q_{n},\ldots }

est ultimement périodique; en effet, l'automate n'a qu'un nombre fini d'états, donc il existe des entiers n {\displaystyle n} et m > n {\displaystyle m>n} tels que q n = q m {\displaystyle q_{n}=q_{m}} , et alors q n + k = q m + k {\displaystyle q_{n+k}=q_{m+k}} pour tout k > 0 {\displaystyle k>0} . Soit n {\displaystyle n} le plus petit indice tel que q n {\displaystyle q_{n}} apparaît deux fois, et donc une infinité de fois, dans la suite des états, et soit s > 0 {\displaystyle s>0} le plus petit entier tel que q n = q n + s {\displaystyle q_{n}=q_{n+s}} . L'ensemble des mots qui amènent l'état initial q 0 {\displaystyle q_{0}} sur l'état q h {\displaystyle q_{h}} est égal au singleton a h {\displaystyle a^{h}} si h < n {\displaystyle h<n} , et est égal à a h ( a s ) {\displaystyle a^{h}(a^{s})^{*}} sinon. Dans les deux cas, l'ensemble des exposants est une progression arithmétique. Comme le langage reconnu est une réunion de langages de ce type, il est de la forme annoncée. La réciproque se démontre tout simplement : chaque langage de la forme a h ( a s ) {\displaystyle a^{h}(a^{s})^{*}} est visiblement rationnel, et une réunion finie de langages de cette forme l'est encore.

Dans cette preuve, on utilise les expressions rationnelles dans une des directions, et la structure de l'automate fini dans l'autre[note 2].

Nombre de mots de longueur donnée dans un langage rationnel

Pour un langage rationnel L {\displaystyle L} donné, notons s n {\displaystyle s_{n}} le nombre de mots de longueur n {\displaystyle n} de L {\displaystyle L} . Par exemple, si L {\displaystyle L} est l'ensemble des mots sur deux lettres a , b {\displaystyle a,b} ne contenant pas deux b {\displaystyle b} consécutifs, on a

L = { ε , a , b , a a , a b , b a , a a a , a a b , a b a , b a a , b a b , } {\displaystyle L=\{\varepsilon ,a,b,aa,ab,ba,aaa,aab,aba,baa,bab,\ldots \}}

et la suite des nombres de mots est

1 , 2 , 3 , 5 , {\displaystyle 1,2,3,5,\ldots } .

C'est en fait la suite des nombres de Fibonacci.

La série génératrice de la suite des longueurs est la série

f L ( z ) = n = 0 s n z n {\displaystyle f_{L}(z)=\sum _{n=0}^{\infty }s_{n}z^{n}} .

Dans l'exemple, c'est la série

f L ( z ) = 1 + 2 z + 3 z 2 + 5 z 3 + = 1 + z 1 z z 2 {\displaystyle f_{L}(z)=1+2z+3z^{2}+5z^{3}+\cdots ={\frac {1+z}{1-z-z^{2}}}} .

L'observation importante est que la série génératrice des longueurs, pour un langage rationnel, est toujours une fraction rationnelle. La suite des longueurs vérifie donc une relation de récurrence linéaire à coefficients constants. La série et la relation de récurrence sont effectivement calculables.

Le fait que la série reste rationnelle peut être exploité pour montrer que certains langages ne sont pas rationnels. Par exemple, pour le langage de Dyck sur une paire de parenthèses, le nombre de mots de longueur 2 n {\displaystyle 2n} est le n {\displaystyle n} -ième nombre de Catalan, et la série génératrice des nombres de Catalan n'est pas rationnelle.

Automate de Fibonacci.

Soit A = ( Q , F , I , T ) {\displaystyle {\mathcal {A}}=(Q,{\mathcal {F}},I,T)} un automate fini sur un alphabet A reconnaissant un langage L {\displaystyle L} donné. Pour simplifier les notations, on suppose que Q = { 1 , 2 , , k } {\displaystyle Q=\{1,2,\ldots ,k\}} . On note L i , j {\displaystyle L_{i,j}} le langage des mots w {\displaystyle w} qui sont étiquettes de chemins de i {\displaystyle i} à j {\displaystyle j} , de sorte que

L = i I , t T L i , t {\displaystyle L=\bigcup _{i\in I,t\in T}L_{i,t}} .

Pour l'exemple de l'automate de Fibonacci, on a L = L 1 , 1 L 1 , 2 {\displaystyle L=L_{1,1}\cup L_{1,2}} . On suppose maintenant que l'automate A {\displaystyle {\mathcal {A}}} est déterministe - ou inambigu - et on note

s i , j ( n ) = C a r d { w i w = j ,   | w | = n } {\displaystyle s_{i,j}(n)=\mathrm {Card} \{w\mid i\cdot w=j,\ |w|=n\}} .

C'est donc le nombre de mots de longueur n {\displaystyle n} qui sont étiquettes de chemins de i {\displaystyle i} à j. Il en résulte que le nombre de mots de longueur n {\displaystyle n} du langage L {\displaystyle L} est

s n = i I , t T s i , t ( n ) {\displaystyle s_{n}=\sum _{i\in I,t\in T}s_{i,t}(n)} .

Pour l'exemple de l'automate de Fibonacci, on a s n = s 1 , 1 ( n ) + s 1 , 2 ( n ) {\displaystyle s_{n}=s_{1,1}(n)+s_{1,2}(n)} . Les nombres s i , j ( n ) {\displaystyle s_{i,j}(n)} sont des coefficients d'une matrice associée naturellement à l’automate A {\displaystyle {\mathcal {A}}} . Soit M = ( m i , j ) {\displaystyle M=(m_{i,j})} la matrice d'ordre k {\displaystyle k} définie par

m i , j = C a r d { a A i a = j } {\displaystyle m_{i,j}=\mathrm {Card} \{a\in A\mid i\cdot a=j\}} .

Le nombre m i , j {\displaystyle m_{i,j}} est le nombre de transition de i {\displaystyle i} à j {\displaystyle j} ; on a donc m i , j = s i , j ( 1 ) {\displaystyle m_{i,j}=s_{i,j}(1)} avec les notations précédentes. Pour l'exemple de l'automate de Fibonacci, on a

M = ( 1 1 1 0 ) {\displaystyle M={\begin{pmatrix}1&1\\1&0\end{pmatrix}}}

Il est facile de vérifier que, parce que l’automate est déterministe ou inambigu, les coefficients de la puissance n {\displaystyle n} -ième de M {\displaystyle M} sont précisément le nombre de mots de longueur n {\displaystyle n} entre les états, soit

M n = ( s i , j ( n ) ) {\displaystyle M^{n}=(s_{i,j}(n))} .

Le nombre de mots de longueur n {\displaystyle n} du langage est la somme des coefficients indicés par l'état initial et les états terminaux. Pour l'exemple de l'automate de Fibonacci, on a

M 2 = ( 2 1 1 1 )   , M 3 = ( 3 2 2 1 )   , M 4 = ( 5 3 3 2 ) {\displaystyle M^{2}={\begin{pmatrix}2&1\\1&1\end{pmatrix}}\ ,\quad M^{3}={\begin{pmatrix}3&2\\2&1\end{pmatrix}}\ ,\quad M^{4}={\begin{pmatrix}5&3\\3&2\end{pmatrix}}}

et plus généralement

M n = ( u n + 1 u n u n u n 1 ) {\displaystyle M^{n}={\begin{pmatrix}u_{n+1}&u_{n}\\u_{n}&u_{n-1}\end{pmatrix}}} ,

u n {\displaystyle u_{n}} est le n + 1 {\displaystyle n+1} -ième nombre de Fibonacci. Enfin, comme toute matrice, la matrice M {\displaystyle M} vérifie le théorème de Cayley-Hamilton, les suites ( s i , j ( n ) ) n 0 {\displaystyle (s_{i,j}(n))_{n}\geq 0} vérifient toutes la même relation de récurrence. Pour l'exemple de l'automate de Fibonacci, on a M 2 = M + I {\displaystyle M^{2}=M+I} , où I {\displaystyle I} est la matrice identité.

Autres caractérisations

Les langages rationnels sont aussi :

  • les langages dont le monoïde syntaxique est fini ;
  • les langages définissables dans S1S, la logique monadique du second ordre avec successeur (et aussi dans WS1S, la variante "weak", où la quantification du second ordre est sur les ensembles finis)[5],[6],[7],[8] ;
  • les langages de type 3 dans la hiérarchie de Chomsky-Schützenberger : ce sont les langages qui peuvent être engendrés par une grammaire régulière, c'est-à-dire une grammaire linéaire droite (ou linéaire gauche) ;
  • les langages reconnus par des machines de Turing qui n'écrivent pas sur leur bande (s'ils peuvent se déplacer dans les deux sens ce sont des automates finis bidirectionnels) ;
  • les langages reconnus par des automates finis alternants ;
  • les langages congruentiels définissables par certains systèmes de réécriture de mots.
  • la plus petite famille de langages qui contient les langages singleton et est fermée par union, concaténation, itération, fermeture, union, complémentation, division, miroir et substitution.

Généralisation aux monoïdes quelconques

Les parties rationnelles et les parties reconnaissables peuvent être définis dans tout monoïde. La contrepartie est qu'en général, le théorème de Kleene n'y est pas vérifié, c'est-à-dire que toute partie reconnaissable n'est pas nécessairement rationnelle et vice-versa.

Dans un monoïde M {\displaystyle M} , l'ensemble des parties rationnelles est défini comme dans le cas de l'ensemble des mots A {\displaystyle A^{*}} : c'est la plus petite famille, au sens de l'inclusion, de parties de M {\displaystyle M} qui contient l'ensemble vide {\displaystyle \emptyset } et les singletons, et est stable par toutes les opérations rationnelles. Il est à noter que l'opération étoile revient à prendre le sous-monoïde engendré par la partie: ainsi, a {\displaystyle a^{*}} est le monoïde engendré par l'élément a {\displaystyle a} .

Pour ce qui est des parties reconnaissables, la définition par automates n'est plus appropriée car rien ne permet d'écrire un élément de M {\displaystyle M} comme produit d'éléments minimaux (les lettres dans le cas de A {\displaystyle A^{*}} ). On utilise alors une définition équivalente, et qui peut être généralisée à tous les monoïdes. Une partie L {\displaystyle L} de M {\displaystyle M} est reconnue par un monoïde N {\displaystyle N} s'il existe un morphisme de monoïdes Φ {\displaystyle \Phi } de M {\displaystyle M} sur N {\displaystyle N} et une partie R {\displaystyle R} de N {\displaystyle N} tels que L = Φ 1 ( R ) {\displaystyle L=\Phi ^{-1}(R)} . Une partie reconnaissable de M {\displaystyle M} est alors une partie reconnue par un monoïde N {\displaystyle N} fini.

Cette définition est bien équivalente à la première pour l'ensemble des mots. Si L {\displaystyle L} est un langage rationnel, alors L {\displaystyle L} est reconnu par son monoïde syntaxique (il suffit de prendre pour Φ {\displaystyle \Phi } la projection canonique et pour R {\displaystyle R} l'ensemble des classes d'équivalence incluses dans L {\displaystyle L} ). Réciproquement, si L {\displaystyle L} est un langage reconnu par un monoïde fini M {\displaystyle M} , alors l'automate ( M , A , δ , e , R ) {\displaystyle (M,A,\delta ,e,R)} où:

  • e {\displaystyle e} est l'élément neutre de M {\displaystyle M} ;
  • δ {\displaystyle \delta } est défini pour tout q M {\displaystyle q\in M} et a A {\displaystyle a\in A} par: δ ( q , a ) = q Φ ( a ) {\displaystyle \delta (q,a)=q\Phi (a)}

reconnaît L {\displaystyle L} . En effet, par hypothèse, on a L = Φ 1 ( R ) {\displaystyle L=\Phi ^{-1}(R)} , et un mot w {\displaystyle w} est accepté si et seulement si δ ( e , w ) = Φ ( w ) R {\displaystyle \delta (e,w)=\Phi (w)\in R} , donc si et seulement si w {\displaystyle w} appartient à Φ 1 ( R ) {\displaystyle \Phi ^{-1}(R)} .

Le théorème de Kleene ne s'applique plus dans le cas général de monoïdes quelconques. Ainsi, une partie rationnelle pourra ne pas être reconnaissable et vice-versa. Néanmoins, on dispose d'un théorème dû à McKnight, qui recouvre une partie du théorème de Kleene et s'énonce ainsi: toute partie reconnaissable d'un monoïde M {\displaystyle M} est rationnelle si et seulement si M {\displaystyle M} admet une famille génératrice finie, c'est-à-dire est finiment engendrée.

Histoire

La théorie débute dans les années 1940[note 3]. Warren McCulloch et Walter Pitts ont décrit, en 1943, le système nerveux en modélisant les neurones par des automates simples. Le logicien Stephen Cole Kleene a ensuite prouvé, en 1956, ce que l'on appelle le théorème de Kleene[9],[note 4]. En 1956, Edward F. Moore publie son algorithme de minimisation. En 1958, Anil Nerode et John Myhill publient leur caractérisation. En 1959, Michael Rabin et Dana Scott donnent, dans un célèbre article[10], un traitement rigoureux de la théorie des automates. Cet exposé pionnier leur vaut le prix Turing.

Du point de vue pratique, c'est Ken Thompson[note 5] qui implémente les expressions rationnelles dans l'éditeur qed, puis l'éditeur ed sous Unix, et finalement dans grep. Depuis lors, les expressions rationnelles ont été largement utilisées dans les utilitaires tels que lex ainsi que dans les langages de programmation nés sous Unix, tels que expr, awk, Perl, Python… Une bonne partie d'entre eux reposent sur la bibliothèque regex, créée par Henry Spencer.

Voir aussi

Notes et références

Notes

  1. Pour une définition précise des règles de simplification, on peut consulter Sakarovitch (2003)
  2. Pour des détails supplémentaires, on peut consulter Sakarovitch (2003). L'énoncé se trouve à la page 117, c'est la Proposition I.3.3.
  3. Pour un exposé des premières années de la théorie des automates et des langages rationnels, voir Perrin (1995)
  4. P.46, Kleene introduit la notion d’événement régulier (regular event), pour ce qui a été appelé plus tard ensemble régulier ou langage régulier et demande qu'on lui suggère un terme plus descriptif ! La définition des événements réguliers est p. 48.
  5. Notons qu'il a lui aussi reçu le prix Turing.

Références

  1. Dejean et Schützenberger (1966)
  2. voir par exemple Hopcroft et Ullman 1979 ou Carton (2008) ou Sakarovitch (2003)
  3. Petazzoni, Bruno, Seize problèmes d'informatique, p. 73
  4. Hopcroft et Ullman 1979, p. 40.
  5. (en) J. Richard Büchi, « Weak Second-Order Arithmetic and Finite Automata », Mathematical Logic Quarterly, vol. 6, nos 1-6,‎ , p. 66–92 (ISSN 1521-3870, DOI 10.1002/malq.19600060105, lire en ligne, consulté le )
  6. Calvin C. Elgot, « Decision Problems of Finite Automata Design and Related Arithmetics », Transactions of the American Mathematical Society, vol. 98, no 1,‎ , p. 21–51 (DOI 10.2307/1993511, lire en ligne, consulté le )
  7. Boris A. Trakhtenbrot, « Finite automata and the logic of monadic predicates », Dokl. Akad Nauk SSSR 140,‎ , p. 326-329
  8. (en) Mark Weyer, Automata Logics, and Infinite Games, Springer, Berlin, Heidelberg, coll. « Lecture Notes in Computer Science », (ISBN 3-540-36387-4, DOI 10.1007/3-540-36387-4_12, lire en ligne), p. 207–230, Theorem 12.26
  9. S. C. Kleene, « Representation of events in nerve nets and finite automata. », dans C.E. Shannon and J. McCarthy, Automata Studies, vol. 34, Princeton, N. J., Princeton University Press, coll. « Annals of Mathematics Studies », (lire en ligne), p. 3 -- 41.
  10. Rabin et Scott (1959).

Bibliographie

  • Dominique Perrin, « Les débuts de la théorie des automates », Technique et science informatiques, vol. 14, no 4,‎ , p. 409-433 (lire en ligne)
  • Françoise Dejean et Marcel-Paul Schützenberger, « On a Question of Eggan », Information and Control, vol. 9, no 1,‎ , p. 23-2
  • (en) John E. Hopcroft et Jeffrey D. Ullman, Introduction to Automata Theory, Languages, and Computation, Addison Wesley, (ISBN 0-201-02988-X)
  • Olivier Carton, Langages formels, calculabilité et complexité, [détail de l’édition] (lire en ligne)
  • (en) Michael O. Rabin et Dana Scott, « Finite automata and their decision problems », IBM J. Res. Develop., vol. 3,‎ , p. 114-125
  • Jacques Sakarovitch, Éléments de théorie des automates, Vuibert, , 816 p. (ISBN 978-2-7117-4807-5)
    Traduction anglaise avec corrections: Elements of Automata Theory, Cambridge University Press 2009, (ISBN 9780521844253)
v · m
Théorie des automates, des langages formels et des grammaires formelles
Hiérarchie de ChomskyGrammaireLangageAutomate

Type-0

Machine de Turing
Machine de Turing qui s'arrête toujours

Type-1

Type-2

Type-3

Grammaire régulière ou grammaire rationnelle

Langage rationnel
Langage sans étoile

Chaque classe de langages est strictement contenue dans la classe immédiatement au-dessus d'elle.
Chaque automate et chaque grammaire d'une classe ont un équivalent dans la classe immédiatement au-dessus
.
v · m
Codage
Modèles de calcul
Algorithmique
Syntaxe
Sémantique
Logique mathématique
Mathématiques discrètes
  • icône décorative Portail de la logique
  • icône décorative Portail de l’informatique
  • icône décorative Portail de l'informatique théorique