Lemme de l'étoile

En théorie des langages, le lemme de l'étoile ou lemme d'itération[réf. nécessaire] pour les langages rationnels (ou encore lemme de gonflement[réf. nécessaire], lemme de pompage[réf. nécessaire], lemme de la pompe[réf. nécessaire], pumping lemma en anglais) énonce une propriété typique de tout langage rationnel. Informellement, il stipule que tout mot suffisamment long d'un langage rationnel peut être pompé, au sens qu'une partie centrale du mot peut être répétée un nombre quelconque de fois, et que chacun des mots produits est encore dans le langage. On peut même supposer que la partie centrale est située suffisamment[pas clair] au début du mot.

Le lemme de l'étoile a été formulé pour la première fois en 1961 par Y. Bar-Hillel, Micha A. Perles, Eli Shamir[1]. Le même article contient un lemme d'itération pour les langages algébriques.

Le lemme de l'étoile est couramment utilisé pour montrer qu'un langage donné n'est pas rationnel (en raisonnant par l'absurde). En revanche, il ne peut être employé pour démontrer qu'un langage est rationnel. En effet, il énonce une condition, nécessaire certes, mais non suffisante, de rationalité.

Explication informelle

Considérons le langage des mots qui commencent par un certain nombre de a {\displaystyle a} , suivi par le même nombre de b {\displaystyle b} . Il s'agit du langage composé des mots suivants :

(mot vide)
ab
aabb
aaabbb
aaaabbbb
aaaaabbbbb
...

Nous allons montrer que ce langage n'est pas rationnel, i.e. il n'est pas représenté par une expression rationnelle (ou expression régulière). Pour cela, supposons par l'absurde que ce langage est rationnel. On peut alors appliquer le lemme de l'étoile sur un mot suffisamment long du langage. Par exemple :

aaaaaaaaaabbbbbbbbbb

Le lemme dit que l'on peut effacer ou répéter une partie du mot, qui est suffisamment près du début du mot. Cette partie sera donc composée que de a et est représentée en gras, par exemple :

aaaaaaaaaabbbbbbbbbb

Le lemme stipule donc que les mots suivants sont aussi dans le langage :

aaaaaaabbbbbbbbbb                        (suppression de la partie, zéro copie)
aaaaaaaaaabbbbbbbbbb                     (mot initial, une copie)   
aaaaaaaaaaaaabbbbbbbbbb                  (répétée une fois, deux copies)
aaaaaaaaaaaaaaaabbbbbbbbbb               (répétée deux fois, trois copies)
aaaaaaaaaaaaaaaaaaabbbbbbbbbb            (répétée trois fois, quatre copies)
...

ce qui n'est pas vrai puisque l'on a pas le même nombre de a que de b. Dans la suite, nous allons donner l'énoncé précis et formel du lemme de l'étoile. Puis la démonstration formelle de ce que l'on vient de voir.

Énoncé formel

Dans l'énoncé suivant | w | {\displaystyle |w|\,} dénote la longueur du mot w {\displaystyle w} . On écrit y n {\displaystyle y^{n}} pour dire que l'on a n {\displaystyle n} copies du mot y {\displaystyle y} . Pour n = 0, y n {\displaystyle y^{n}} est le mot vide.

Théorème — Soit L {\displaystyle L} un langage rationnel. Il existe un entier N > 0 {\displaystyle N>0} tel que tout mot w {\displaystyle w} de L {\displaystyle L} de longueur | w | N {\displaystyle |w|\geq N} possède une factorisation w = x y z {\displaystyle w=xyz} telle que

  1. | y | > 0 {\displaystyle |y|>0}
  2. 0 < | x y | N {\displaystyle 0<|xy|\leq N} et
  3. x y n z L {\displaystyle xy^{n}z\in L} pour tout entier n {\displaystyle n} 0 {\displaystyle \geq 0} .

Dans l'énoncé, l'entier N {\displaystyle N} ne dépend que de L {\displaystyle L} et non pas du mot w {\displaystyle w} choisi. Il est parfois appelé constante d'itération[réf. nécessaire]. Le facteur central y {\displaystyle y} de la factorisation w = x y z {\displaystyle w=xyz} est appelé un facteur itérant[réf. nécessaire]. Le nom « lemme de l'étoile » provient de la formulation équivalente suivante de la conclusion du lemme, dans laquelle une étoile apparaît :

x y z L {\displaystyle xy^{*}z\subseteq L} .

Parmi les itérés x y n z {\displaystyle xy^{n}z} qui sont dans le langage figure aussi le mot x z {\displaystyle xz} obtenu pour n = 0 {\displaystyle n=0} .

Il existe de nombreuses variantes de ce lemme ; la plus fréquente stipule, au lieu de la condition | y | N {\displaystyle |y|\leq N} , la condition | x y | N {\displaystyle |xy|\leq N} , et donc que le facteur itérant y {\displaystyle y} se situe près du début du mot.

Exemples d'application du lemme de l'étoile

Le lemme de l'étoile est souvent utilisé pour démontrer qu'un langage donné n'est pas rationnel. La preuve se fait en général par l'absurde, en supposant que le langage est rationnel et en exhibant un mot du langage qui ne vérifie pas la conclusion du lemme.

Exemple d'une démonstration formelle

Montrons que le langage L = { a n b n n 0 } {\displaystyle L=\{a^{n}b^{n}\mid n\geq 0\}} sur l'alphabet A = { a , b } {\displaystyle A=\{a,b\}} n'est pas rationnel. Il s'agit du langage composé des mots qui commencent par un certain nombre de a {\displaystyle a} , suivi par le même nombre de b {\displaystyle b} . Il contient notamment le mot vide, ainsi que les mots a b {\displaystyle ab} , a a b b {\displaystyle aabb} , a a a b b b {\displaystyle aaabbb} , etc.

Supposons par l'absurde que L {\displaystyle L} est rationnel. Le lemme de l'étoile peut alors s'appliquer à ce langage.

Soit N > 0 {\displaystyle N>0} une constante d'itération de L {\displaystyle L} , et considérons le mot w = a N b N {\displaystyle w=a^{N}b^{N}} . Par le lemme de l'étoile, il existe un mot w = x y z {\displaystyle w=xyz} vérifiant les conditions du lemme de l'étoile. En particulier, et en utilisant la variante énoncée, on a | x y | N {\displaystyle |xy|\leq N} , et donc x {\displaystyle x} et y {\displaystyle y} sont composés uniquement de lettres a {\displaystyle a} .

Posons maintenant k = | y | {\displaystyle k=|y|} , et remarquons que k > 0 {\displaystyle k>0} (car | y | > 0 {\displaystyle |y|>0} ) et y = a k {\displaystyle y=a^{k}} . Alors, par le lemme de l'étoile, et pour tout n 0 {\displaystyle n\geq 0} , tous les mots x y n z = a N k + n k b N {\displaystyle xy^{n}z=a^{N-k+nk}b^{N}} appartiennent également au langage L {\displaystyle L} . Ainsi, on devrait avoir N k + n k = N {\displaystyle N-k+nk=N} pour tout entier n 0 {\displaystyle n\geq 0} , et donc k = | y | = 0 {\displaystyle k=|y|=0} , ce qui est en contradiction avec l'hypothèse. Donc L {\displaystyle L} n'est pas rationnel.

D'autres cas d'applications

On montre de même que

  • le langage des palindromes sur A = { a , b } {\displaystyle A=\{a,b\}} n'est pas rationnel[réf. nécessaire],
  • le langage { w X : | w | a = | w | b } {\displaystyle \{w\in X^{*}:|w|_{a}=|w|_{b}\}} sur A = { a , b } {\displaystyle A=\{a,b\}} (où | w | a {\displaystyle |w|_{a}\,} désigne le nombre d'occurrences de la lettre a {\displaystyle a} dans le mot w {\displaystyle w} ) est composé des mots qui ont autant de a {\displaystyle a} que de b {\displaystyle b} . Il n'est pas rationnel[réf. nécessaire].

Un peu plus compliqué est la preuve que le langage { a n b m 0 n m } {\displaystyle \{a^{n}b^{m}\mid 0\leq n\leq m\}} n'est pas rationnel[réf. nécessaire]. De même, le langage { a n b m n m } {\displaystyle \{a^{n}b^{m}\mid n\neq m\}} n'est pas rationnel[réf. nécessaire]. Au lieu de faire une preuve directe, il vaut mieux passer par le langage complément.

Preuve du lemme de l'étoile

L'argument principal de la preuve est le principe des tiroirs. Il s’emploie, dans le cas présent, sous la forme du constat qu'un chemin assez long dans un graphe fini passe deux fois par le même sommet.

Soit L {\displaystyle L} un langage rationnel, sur un alphabet A {\displaystyle A} . Par le théorème de Kleene, il existe un automate fini A {\displaystyle {\mathcal {A}}} qui reconnaît L {\displaystyle L} . Soit N {\displaystyle N} le nombre d'états de cet automate. Soit w {\displaystyle w} un mot de L {\displaystyle L} de longueur | w | N {\displaystyle |w|\geq N\,} . Comme w {\displaystyle w} est dans L {\displaystyle L} , il est reconnu par A {\displaystyle {\mathcal {A}}} , et il existe un chemin acceptant q 0 w t {\displaystyle q_{0}{\xrightarrow {w}}t} de l'état initial noté ici q 0 {\displaystyle q_{0}} vers un état terminal t {\displaystyle t} d'étiquette w {\displaystyle w} . Soient a 1 , a 2 , , a N {\displaystyle a_{1},a_{2},\ldots ,a_{N}} les N {\displaystyle N} premières lettres de w {\displaystyle w} , posons w = a 1 a 2 a N w {\displaystyle w=a_{1}a_{2}\cdots a_{N}w'} , et soient q 1 , q 2 , , q N {\displaystyle q_{1},q_{2},\ldots ,q_{N}} les états successifs atteints après la lecture de ces lettres. On a alors le chemin suivant :

q 0 a 1 q 1 a 2 q 2 q N 1 a N q N w t . {\displaystyle q_{0}{\xrightarrow {a_{1}}}q_{1}{\xrightarrow {a_{2}}}q_{2}\cdots q_{N-1}{\xrightarrow {a_{N}}}q_{N}{\xrightarrow {w'}}t.}

Le principe des tiroirs dit que, parmi les N + 1 {\displaystyle N+1} états q 0 , q 1 , , q N {\displaystyle q_{0},q_{1},\ldots ,q_{N}} , deux d'entre eux sont égaux. Il existe donc deux entiers k , {\displaystyle k,\ell } avec 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que q k = q {\displaystyle q_{k}=q_{\ell }} . Posons q = q k = q {\displaystyle q=q_{k}=q_{\ell }} et

x = a 1 a 2 a k ,   y = a k + 1 a ,   z = a + 1 a N w . {\displaystyle x=a_{1}a_{2}\cdots a_{k},\ y=a_{k+1}\cdots a_{\ell },\ z=a_{\ell +1}\cdots a_{N}w'.}

Le chemin d'étiquette w {\displaystyle w} se factorise de la façon suivante :

q 0 x q y q z t . {\displaystyle q_{0}{\xrightarrow {x}}q{\xrightarrow {y}}q{\xrightarrow {z}}t.}

Il en résulte que q y n q {\displaystyle q{\xrightarrow {y^{n}}}q} pour tout entier n 0 {\displaystyle n\geq 0} , et donc que x y n z {\displaystyle xy^{n}z} est dans L {\displaystyle L} pour tout entier n 0 {\displaystyle n\geq 0} . Enfin, on a | y | = k {\displaystyle |y|=\ell -k} , donc 0 < | y | N {\displaystyle 0<|y|\leq N} . Ceci prouve le lemme.

La preuve montre en fait la variante du lemme énoncée ci-dessus, à savoir que de plus, on a | x y | N {\displaystyle |xy|\leq N} , puisque | x y | = {\displaystyle |xy|=\ell } .

Le lemme est une condition nécessaire mais non suffisante de rationalité

Le lemme ne donne qu'une condition nécessaire pour qu'un langage soit rationnel.

Un premier exemple

Voici un langage non rationnel qui vérifie le lemme de l'étoile dans la version donnée ci-dessus. Notons u R {\displaystyle u^{R}} l'image miroir d'un mot u {\displaystyle u} , et soit L = { u u R v   u , v { a , b } + } {\displaystyle L=\{uu^{R}v\mid \ u,v\in \{a,b\}^{+}\}} l'ensemble des mots qui ont un préfixe qui est un palindrome non vide de longueur paire.

Posons N = 4 {\displaystyle N=4} , et soit w = u u R v {\displaystyle w=uu^{R}v} un mot de longueur au moins 4 du langage. Si u {\displaystyle u} est une lettre, la factorisation w = x y z {\displaystyle w=xyz} avec x = u u R {\displaystyle x=uu^{R}} , y {\displaystyle y} la première lettre de v {\displaystyle v} et z {\displaystyle z} le reste du mot convient. Si u {\displaystyle u} est de longueur au moins 2, on choisit pour x {\displaystyle x} le mot vide, pour y {\displaystyle y} la première lettre de u {\displaystyle u} , et pour z {\displaystyle z} le u {\displaystyle u} reste du mot. Pour N 2 {\displaystyle N\geq 2} , le mot x y N z {\displaystyle xy^{N}z} commence par le palindrome non vide y y {\displaystyle yy} ; pour N = 0 {\displaystyle N=0} , le mot x y N z = z {\displaystyle xy^{N}z=z} commence par le palindrome formé de u {\displaystyle u} privé de sa première lettre, suivi de l'image miroir de ce suffixe (lui-même suivi de la première lettre de u {\displaystyle u} ).

Un autre exemple

Le langage L = { a m b n c n m , n 1 } { b m c n m , n 0 } {\displaystyle L=\left\{a^{m}b^{n}c^{n}\mid m,n\geq 1\right\}\cup \{b^{m}c^{n}\mid m,n\geq 0\}} n'est pas rationnel mais vérifie les conditions du lemme de l’étoile ; en effet, tout mot z L {\displaystyle z\in L} se factorise en z = u v w {\displaystyle z=uvw} , de manière que u v i w L {\displaystyle uv^{i}w\in L} pour i 0 {\displaystyle i\geq 0} . Pour cela, on choisit pour v {\displaystyle v} la première lettre : c'est soit la lettre a {\displaystyle a} , et le nombre de a {\displaystyle a} est arbitraire, ou c'est un b {\displaystyle b} ou c {\displaystyle c} sans a {\displaystyle a} e tête, et le nombre de b {\displaystyle b} ou c {\displaystyle c} est arbitraire.

Extensions

Il existe de nombreuses variantes du lemme de l'étoile, plus ou moins sophistiquées, pour prendre en compte des langages plus compliqués.

Choix du facteur itérant

La première variante énonce que la place du facteur itérant peut être choisie dans n'importe quelle plage du mot de longueur assez grande. Voici l'énoncé :

Lemme de l'étoile (variante) — Soit L {\displaystyle L} un langage rationnel. Il existe un entier N {\displaystyle N} tel que pour tout mot w {\displaystyle w} de L {\displaystyle L} , et pour toute factorisation w = u w v {\displaystyle w=uw'v} , avec w {\displaystyle w'} de longueur | w | N {\displaystyle |w'|\geq N} , il existe une factorisation w = x y z {\displaystyle w'=xyz} telle que

  1. 0 < | y | N {\displaystyle 0<|y|\leq N} et
  2. u x y z v L {\displaystyle uxy^{*}zv\subset L} .

Exemple d'utilisation du choix du facteur itérant

Sur l'alphabet { a , b } {\displaystyle \{a,b\}} , en posant, pour tout mot u {\displaystyle u} sur cet alphabet: | u | a {\displaystyle |u|_{a}} et | u | b {\displaystyle |u|_{b}} , respectivement le nombre de a {\displaystyle a} et le nombre de b {\displaystyle b} dans u {\displaystyle u} ,  on a que l'ensemble des mots u {\displaystyle u} tels que  | u | a = | u | b {\displaystyle |u|_{a}=|u|_{b}} vérifie la conclusion du lemme de l'étoile (en prenant N = 2 {\displaystyle N=2} , il existe, dans tous mots de cet ensemble, un a {\displaystyle a} et un b {\displaystyle b} se suivant; il est possible d'itérer cette partie du mot en restant dans ce langage: par exemple, si le mot est de la forme v a b v {\displaystyle vabv'} (le cas v b a v {\displaystyle vbav'} étant similaire), on a que, pour tout entier naturel n, v ( a b ) n v {\displaystyle v(ab)^{n}v'} est également dans le langage). Cependant, il ne respecte pas le lemme de l'étoile par blocs: par l'absurde, on suppose disposer d'un tel N {\displaystyle N} . On pose alors: w = a N b N {\displaystyle w=a^{N}b^{N}} et u = a N {\displaystyle u=a^{N}} , w = b N {\displaystyle w'=b^{N}} et v {\displaystyle v} , le mot vide. On dispose alors d'une factorisation de la forme: w = x y z {\displaystyle w'=xyz} respectant la conclusion du choix du facteur itérant. Or: | u x y 2 z v | b > | u x y z v | b {\displaystyle |uxy^{2}zv|_{b}>|uxyzv|_{b}} et | u x y 2 z v | a = | u x y z v | a {\displaystyle |uxy^{2}zv|_{a}=|uxyzv|_{a}} , ce qui est absurde.

Preuve du lemme avec choix du facteur itérant

Le schéma de la preuve est semblable à celui du premier lemme de l'étoile énoncé. Soit L {\displaystyle L} un langage rationnel, sur un alphabet A {\displaystyle A} , soit A {\displaystyle {\mathcal {A}}} , un automate fini reconnaissant L {\displaystyle L} et soit N {\displaystyle N} son nombre d'états. Soit w {\displaystyle w} un mot de L {\displaystyle L} , et soit u w v {\displaystyle uw'v} , une factorisation de ce mot telle que | w | N {\displaystyle |w'|\geq N} . On pose w = a 1 a N s {\displaystyle w'=a_{1}\cdots a_{N}s} où les a i {\displaystyle a_{i}} sont des lettres et où s {\displaystyle s} le suffixe de w {\displaystyle w'} la longueur | w | N {\displaystyle |w'|-N} . Il existe une suite i , q 0 , q 1 , , q N , q , t {\displaystyle i,q_{0},q_{1},\ldots ,q_{N},q',t} d'états, où i {\displaystyle i} est initial et t {\displaystyle t} est terminal, tels que

i u q 0 {\displaystyle i{\stackrel {u}{\longrightarrow }}q_{0}} , q 0 a 1 q 1 a 2 q 2 q N 1 a N q N {\displaystyle q_{0}{\stackrel {a_{1}}{\longrightarrow }}q_{1}{\stackrel {a_{2}}{\longrightarrow }}q_{2}\cdots q_{N-1}{\stackrel {a_{N}}{\longrightarrow }}q_{N}} et q N s q v t {\displaystyle q_{N}{\stackrel {s}{\longrightarrow }}q'{\stackrel {v}{\longrightarrow }}t} .

Par le principe des tiroirs, il existe deux entiers 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que q k = q {\displaystyle q_{k}=q_{\ell }} . Posons

q = q k = q {\displaystyle q=q_{k}=q_{\ell }} , x = a 1 a k , y = a k + 1 a {\displaystyle x=a_{1}\cdots a_{k},y=a_{k+1}\cdots a_{\ell }} , z = a + 1 a N s {\displaystyle z=a_{\ell +1}\cdots a_{N}s} .

Alors

q 0 x q y q z q {\displaystyle q_{0}{\stackrel {x}{\longrightarrow }}q{\stackrel {y}{\longrightarrow }}q{\stackrel {z}{\longrightarrow }}q'} et de plus q y n q {\displaystyle q{\stackrel {y^{n}}{\longrightarrow }}q}

pour tout entier naturel n {\displaystyle n} . L'automate reconnaît donc tous les mots de la forme u x y n z v {\displaystyle uxy^{n}zv} , et de plus 0 < | y | = k 1 N {\displaystyle 0<|y|=\ell -k-1\leq N} .

Lemme de l'étoile par blocs

Dans cette variante, on découpe le mot en blocs, et c'est un groupe de blocs que l'on peut itérer:

Lemme de l'étoile par blocs — Soit L {\displaystyle L} un langage rationnel. Il existe un entier N {\displaystyle N} tel que pour tout mot w {\displaystyle w} de L {\displaystyle L} , et pour toute factorisation w = u w 1 w 2 w N v {\displaystyle w=uw_{1}w_{2}\cdots w_{N}v} , où tous les w i {\displaystyle w_{i}} sont non vides, il existe deux entiers k , {\displaystyle k,\ell } avec

  1. 0 k < N {\displaystyle 0\leq k<\ell \leq N} et
  2. u w 1 w 2 w k ( w k + 1 w ) w + 1 w N v L {\displaystyle uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{*}w_{\ell +1}\cdots w_{N}v\subset L} .

Dans cet énoncé et les suivants, on convient que w 1 w 2 w k {\displaystyle w_{1}w_{2}\cdots w_{k}} est égal au mot vide si k = 0 {\displaystyle k=0} , et de même w + 1 w N {\displaystyle w_{\ell +1}\cdots w_{N}} est égal au mot vide si = N {\displaystyle \ell =N} .

Preuve du lemme de l'étoile par blocs

Soit L {\displaystyle L} un langage rationnel. Par théorème de Kleene, il existe un automate fini A {\displaystyle {\mathcal {A}}} reconnaissant L {\displaystyle L} . Soit N {\displaystyle N} le nombre d'états de A {\displaystyle {\mathcal {A}}} et soit w = u w 1 w N v {\displaystyle w=uw_{1}\cdots w_{N}v} un mot de L {\displaystyle L} Il existe une suite d'états i , q 0 , q 1 , , q N , t {\displaystyle i,q_{0},q_{1},\ldots ,q_{N},t} tels que

i u q 0 w 1 q 1     q N 1 w N q N v t {\displaystyle i{\stackrel {u}{\longrightarrow }}q_{0}{\stackrel {w_{1}}{\longrightarrow }}q_{1}\ \cdots \ q_{N-1}{\stackrel {w_{N}}{\longrightarrow }}q_{N}{\stackrel {v}{\longrightarrow }}t} ,

i {\displaystyle i} est initial et t {\displaystyle t} est terminal. Par le principe des tiroirs, il existe deux indice 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que q k = q {\displaystyle q_{k}=q_{\ell }} . On a donc, en notant q {\displaystyle q} cet état et z = w k + 1 w {\displaystyle z=w_{k+1}\cdots w_{\ell }} , que

q z q {\displaystyle q{\stackrel {z}{\longrightarrow }}q}

dans l'automate. On en déduit le résultat souhaité : pour tout entier naturel n {\displaystyle n} , le mot w = u w 1 w k z n w + 1 w N v {\displaystyle w=uw_{1}\cdots w_{k}z^{n}w_{\ell +1}\cdots w_{N}v} est un mot accepté par l'automate et est donc un mot de L {\displaystyle L} .

Contre-exemple à la réciproque du lemme de l'étoile par blocs

La réciproque de ce lemme est fausse (il ne s'agit donc pas d'une condition nécessaire et suffisante). Un exemple est donné ci-dessous.

Soient A = { a , b , c } {\displaystyle A=\{a,b,c\}} et B = { a , b , c , # } {\displaystyle B=\{a,b,c,\#\}}  ; soit K = { u u   u   A + } {\displaystyle K=\{uu\mid \ u\in \ A^{+}\}} et K = { u # v   u , v   A  et  u v } {\displaystyle K'=\{u\#v\mid \ u,v\in \ A^{*}{\text{ et }}u\neq v\}} . Le langage L {\displaystyle L} défini par:

L = K A K A # A A # A K A {\displaystyle L=K'\cup A^{*}KA^{*}\#A^{*}\cup A^{*}\#A^{*}KA^{*}}

vérifie la conclusion du lemme de l'étoile par blocs. Cependant, il n'est pas rationnel[2].

Lemme de l'étoile à la Ogden

Le lemme d'Ogden[3], initialement conçu pour les langages algébriques, s'applique aussi bien aux langages rationnels. Étant donné un mot w = a 1 a 2 a n {\displaystyle w=a_{1}a_{2}\cdots a_{n}} , où les a i {\displaystyle a_{i}} sont des lettres, on appelle position dans w {\displaystyle w} tout entier de l'ensemble { 1 , 2 , , n } {\displaystyle \{1,2,\ldots ,n\}} . Un choix de N {\displaystyle N} positions distinguées dans w {\displaystyle w} (ceci est la terminologie habituelle, un peu alambiquée) est simplement un sous-ensemble I { 1 , 2 , , n } {\displaystyle I\subset \{1,2,\ldots ,n\}} de positions contenant N {\displaystyle N} éléments. Avec ces définitions, le lemme s'énonce comme suit:

Lemme de l'étoile à la Ogden — Soit L {\displaystyle L} un langage rationnel. Il existe un entier N {\displaystyle N} tel que pour tout mot w {\displaystyle w} de L {\displaystyle L} de longueur | w | N {\displaystyle |w|\geq N} , et pour tout choix de N {\displaystyle N} positions distinguées dans w {\displaystyle w} , il existe une factorisation w = x y z {\displaystyle w=xyz} telle que

  1. y {\displaystyle y} contient au moins une et au plus N {\displaystyle N} positions distinguées
  2. x y z L {\displaystyle xy^{*}z\subset L} .

Si l'on distingue toutes les positions dans w {\displaystyle w} , on retrouve le lemme de l'étoile initial. Si l'on considère la factorisation de w {\displaystyle w} obtenue en segmentant le mot après chaque position distinguée, on obtient essentiellement le lemme de l'étoile par blocs. Les preuves de ces énoncés sont très similaires.

Conditions nécessaires et suffisantes

En exploitant les propriétés de clôture et de finitude associées aux langages rationnels, on peut obtenir, en partant du lemme de l’étoile, une forme du lemme de l’étoile qui est caractéristique des langages rationnels.

Théorème de Jaffe

Une première caractérisation, qui se fonde sur un renforcement du lemme de l'étoile « faible » est celle de J. Jaffe[4].

On dit qu'un langage L {\displaystyle L} satisfait la condition ( J N ) {\displaystyle (J_{N})} pour un certain entier naturel N {\displaystyle N} si pour tout mot w {\displaystyle w} de longueur N {\displaystyle N} , il existe une factorisation w = u v z {\displaystyle w=uvz} avec v {\displaystyle v} non vide telle que: t A , n N , w t L u v n z t L {\displaystyle \forall t\in A^{*},\forall n\in \mathbb {N} ,wt\in L\iff uv^{n}zt\in L}

On dit qu'un langage L {\displaystyle L} satisfait la condition ( J N ) {\displaystyle (J'_{N})} pour un certain entier naturel N {\displaystyle N} si pour tout mot w {\displaystyle w} de longueur N {\displaystyle N} , il existe une factorisation w = u v z {\displaystyle w=uvz} avec v {\displaystyle v} non vide telle que: t A , w t L u z t L {\displaystyle \forall t\in A^{*},wt\in L\iff uzt\in L}

On a alors le théorème de Jaffe:

Théorème de Jaffe — Soit L {\displaystyle L} un langage. Les conditions suivantes sont équivalentes :

  1. L {\displaystyle L} est rationnel ;
  2. Il existe un entier N {\displaystyle N} tel que L {\displaystyle L} vérifie la condition ( J N ) {\displaystyle (J_{N})}  ;
  3. Il existe un entier N {\displaystyle N} tel que L {\displaystyle L} vérifie la condition ( J N ) {\displaystyle (J'_{N})} .

Elle est cependant « non-locale » puisque pour chaque mot, il faut trouver une factorisation qui marche uniformément par rapport à tous les quotients à droite de ce mot.

Théorème d'Ehrenfeucht, Parikh et Rozenberg

Un théorème prouvé par Andrzej Ehrenfeucht, Rohit Jivanlal Parikh et Grzegorz Rozenberg[5] donne une condition, fondée sur un renforcement du lemme de l'étoile par blocs, qui est nécessaire et suffisante pour qu'un langage soit rationnel et qui est « locale » au sens précédent.

On dit qu'un langage L {\displaystyle L} sur l'alphabet A {\displaystyle A} vérifie la condition ( E N ) {\displaystyle (E_{N})} pour un entier N {\displaystyle N} si pour tout mot w {\displaystyle w} , et pour toute factorisation w = w = u w 1 w 2 w N v {\displaystyle w=w=uw_{1}w_{2}\cdots w_{N}v} , où les mots w i {\displaystyle w_{i}} sont non vides, il existe deux indices k , {\displaystyle k,\ell } avec 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que

w L u w 1 w 2 w k ( w k + 1 w ) n w + 1 w N v L {\displaystyle w\in L\iff uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{n}w_{\ell +1}\cdots w_{N}v\in L} pour tout n N {\displaystyle n\in \mathbb {N} } .

L'équivalence équivaut à la conjonction des deux implications :

w L u w 1 w 2 w k ( w k + 1 w ) w + 1 w N v L {\displaystyle w\in L\implies uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{*}w_{\ell +1}\cdots w_{N}v\subset L} et
w A L u w 1 w 2 w k ( w k + 1 w ) w + 1 w N v A L {\displaystyle w\in A^{*}\setminus L\implies uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{*}w_{\ell +1}\cdots w_{N}v\subset A^{*}\setminus L} .

On dit que L {\displaystyle L} vérifie la condition ( E N ) {\displaystyle (E'_{N})} si pour tout mot w {\displaystyle w} , et pour toute factorisation w = w = u w 1 w 2 w N v {\displaystyle w=w=uw_{1}w_{2}\cdots w_{N}v} , où les mots w i {\displaystyle w_{i}} sont non vides, il existe deux indices k , {\displaystyle k,\ell } avec 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que

w L u w 1 w 2 w k w + 1 w N v L {\displaystyle w\in L\iff uw_{1}w_{2}\cdots w_{k}w_{\ell +1}\cdots w_{N}v\in L} .

Théorème d'Ehrenfeucht, Parikh et Rozenberg — Soit L {\displaystyle L} un langage. Les conditions suivantes sont équivalentes :

  1. L {\displaystyle L} est rationnel ;
  2. il existe un entier N {\displaystyle N} tel que L {\displaystyle L} vérifie la condition ( E N ) {\displaystyle (E_{N})}  ;
  3. il existe un entier N {\displaystyle N} tel que L {\displaystyle L} vérifie la condition ( E N ) {\displaystyle (E'_{N})} .

Il convient de noter une différence importante avec le théorème de Jaffe énoncée précédemment. Les conditions ( J N ) {\displaystyle (J_{N})} et ( J N ) {\displaystyle (J'_{N})} portent sur une factorisation d'un mot et de tous ses quotients à droite tandis que les conditions ( E N ) {\displaystyle (E_{N})} et ( E N ) {\displaystyle (E'_{N})} portent sur toutes les factorisations possibles d'un seul mot, ce qui assure leur caractère local.

L'implication difficile est ( 3 ) ( 1 ) {\displaystyle (3)\implies (1)} . Elle utilise, à la place du principe des tiroirs, le théorème de Ramsey.

Preuve de l'implication ( 1 ) ( 2 ) {\displaystyle (1)\implies (2)}

Si L {\displaystyle L} est rationnel alors son complémentaire A L {\displaystyle A^{*}\setminus L} est aussi rationnel. On applique alors le lemme de l'étoile par blocs à L {\displaystyle L} et à A L {\displaystyle A^{*}\setminus L} , ce qui fournit deux entiers N 1 {\displaystyle N_{1}} et N 2 {\displaystyle N_{2}} respectivement. On définit N = m a x { N 1 , N 2 } {\displaystyle N=max\{N_{1},N_{2}\}} . Soient alors un mot w {\displaystyle w} et une factorisation w = w = u w 1 w 2 w N v {\displaystyle w=w=uw_{1}w_{2}\cdots w_{N}v} , où les mots w i {\displaystyle w_{i}} sont non vides. Si w L {\displaystyle w\in L} , alors il existe deux indices k , {\displaystyle k,\ell } avec 0 k < N 1 N {\displaystyle 0\leq k<\ell \leq N_{1}\leq N} tels que u w 1 w 2 w k ( w k + 1 w ) w + 1 w N v L {\displaystyle uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{*}w_{\ell +1}\cdots w_{N}v\subset L} . De même, si w A L {\displaystyle w\in A^{*}\setminus L} , alors il existe deux indices k , {\displaystyle k,\ell } avec 0 k < N 2 N {\displaystyle 0\leq k<\ell \leq N_{2}\leq N} tels que u w 1 w 2 w k ( w k + 1 w ) w + 1 w N v A L {\displaystyle uw_{1}w_{2}\cdots w_{k}(w_{k+1}\cdots w_{\ell })^{*}w_{\ell +1}\cdots w_{N}v\subset A^{*}\setminus L} . Finalement on obtient bien que L {\displaystyle L} vérifie la condition ( E N ) {\displaystyle (E_{N})} .

Preuve de l'implication ( 2 ) ( 3 ) {\displaystyle (2)\implies (3)}

Si L {\displaystyle L} vérifie ( E N ) {\displaystyle (E_{N})} pour un certain entier N {\displaystyle N} alors pour tout mot et toute factorisation, en prenant n = 0 {\displaystyle n=0} dans l'équivalence sus-citée attachée à la condition ( E N ) {\displaystyle (E_{N})} , on obtient que L {\displaystyle L} vérifie ( E N ) {\displaystyle (E'_{N})} .

Preuve de l'implication ( 3 ) ( 1 ) {\displaystyle (3)\implies (1)}

On s'inspire ici de l'exposition donnée dans les livres de Carton et de Sakarovitch[6]. On procède en trois étapes:

  • a) On montre que si L {\displaystyle L} vérifie la condition ( E N ) {\displaystyle (E'_{N})} pour un certain entier naturel N {\displaystyle N} alors ses quotients à gauche aussi.
  • b) On montre, grâce au théorème de Ramsey, que pour tout entier naturel N {\displaystyle N} , le nombre de langages vérifiant la condition ( E N ) {\displaystyle (E'_{N})} est fini.
  • c) On utilise le théorème de Myhill-Nerode pour conclure : le langage L {\displaystyle L} , ayant un nombre fini de quotients à gauche, est reconnaissable par un automate fini, donc rationnel d'après le théorème de Kleene.

Preuve du point a): Soient N N {\displaystyle N\in \mathbb {N} } et L {\displaystyle L} vérifiant la condition ( E N ) {\displaystyle (E'_{N})} . Soit f {\displaystyle f} un mot. Soient w {\displaystyle w} un mot et soit w = w = u w 1 w 2 w N v {\displaystyle w=w=uw_{1}w_{2}\cdots w_{N}v} une factorisation, où les mots w i {\displaystyle w_{i}} sont non vides. Grâce à la condition ( E N ) {\displaystyle (E'_{N})} , on sait qu'il existe deux indices k , {\displaystyle k,\ell } avec 0 k < N {\displaystyle 0\leq k<\ell \leq N} tels que:

f w L f u w 1 w 2 w k w + 1 w N v L {\displaystyle fw\in L\iff fuw_{1}w_{2}\cdots w_{k}w_{\ell +1}\cdots w_{N}v\in L} .

On a alors:

w f 1 L f w L f u w 1 w 2 w k w + 1 w N v L u w 1 w 2 w k w + 1 w N v f 1 L {\displaystyle {\begin{aligned}w\in f^{-1}L&\iff fw\in L\iff fuw_{1}w_{2}\cdots w_{k}w_{\ell +1}\cdots w_{N}v\in L\\&\iff uw_{1}w_{2}\cdots w_{k}w_{\ell +1}\cdots w_{N}v\in f^{-1}L\end{aligned}}}

ce qui montre que f 1 L {\displaystyle f^{-1}L} vérifie la condition ( E N ) {\displaystyle (E'_{N})} .

Preuve du point b): On utilise le théorème de Ramsey sous la forme suivante, équivalente à celle énoncée pour les graphes dans l'article théorème de Ramsey. Dans cet énoncé, P k ( X ) {\displaystyle P_{k}(X)} dénote l'ensemble des parties à k {\displaystyle k} éléments d'un ensemble X {\displaystyle X} .

Théorème de Ramsey pour les ensembles finis — Pour tout triplet ( k , m , r ) N 3 {\displaystyle (k,m,r)\in \mathbb {N} ^{3}} , il existe un entier R = R ( k , m , r ) {\displaystyle R=R(k,m,r)} tel que pour tout ensemble E {\displaystyle E} d'au moins R {\displaystyle R} éléments et pour toute partition de P k ( E ) {\displaystyle P_{k}(E)} en au plus m {\displaystyle m} classes, il existe un sous-ensemble F {\displaystyle F} de E {\displaystyle E} d'au moins r {\displaystyle r} éléments tel que P k ( F ) {\displaystyle P_{k}(F)} est entièrement contenu dans l'une des classes de la partition.

Soient donc N N {\displaystyle N\in \mathbb {N} } et R = R ( 2 , 2 , N + 1 ) {\displaystyle R=R(2,2,N+1)} . Montrons que si deux langages L {\displaystyle L} et K {\displaystyle K} vérifiant la condition ( E N ) {\displaystyle (E'_{N})} coïncident sur les mots de longueur R {\displaystyle \leq R} alors ils sont égaux. Ceci fournira une injection de l'ensemble des langages vérifiant ( E N ) {\displaystyle (E'_{N})} vers l'ensemble des parties de l'ensemble des mots de longueur R {\displaystyle \leq R} , qui est un ensemble fini, ce qui permettra de conclure.

Pour ce faire, on procède par récurrence forte sur la longueur d'un mot. Si w {\displaystyle w} est un mot de longueur R {\displaystyle \leq R} alors w L w K {\displaystyle w\in L\iff w\in K} par hypothèse. On suppose maintenant que w {\displaystyle w} est de longueur M > R {\displaystyle M>R} et que L {\displaystyle L} et K {\displaystyle K} coïncident sur les mots de longueur < M {\displaystyle <M} . On factorise w {\displaystyle w} en w = w 0 w 2 w R v {\displaystyle w=w_{0}w_{2}\cdots w_{R}v} où les w i {\displaystyle w_{i}} sont des lettres et v {\displaystyle v} un mot. On considère l'ensemble E = { 1 , , R } {\displaystyle E=\{1,\ldots ,R\}} et la partition { X , X ¯ } {\displaystyle \{X,{\bar {X}}\}} de P 2 ( E ) {\displaystyle P_{2}(E)}

X = { { i , j } P 2 ( E ) i < j     et     w 0 w 2 w i w j + 1 w N v L } {\displaystyle X=\{\{i,j\}\in P_{2}(E)\mid i<j\ \ {\text{et}}\ \ w_{0}w_{2}\cdots w_{i}w_{j+1}\cdots w_{N}v\in L\}}

et son complémentaire noté X ¯ {\displaystyle {\bar {X}}} . Par hypothèse de récurrence, on a aussi

X = { { i , j } P 2 ( E ) i < j     et     w 0 w 2 w i w j + 1 w N v K } {\displaystyle X=\{\{i,j\}\in P_{2}(E)\mid i<j\ \ {\text{et}}\ \ w_{0}w_{2}\cdots w_{i}w_{j+1}\cdots w_{N}v\in K\}} .

Par le théorème de Ramsey, on obtient l'existence d'un sous-ensemble F = { i 1 < < i N } {\displaystyle F=\{i_{1}<\cdots <i_{N}\}} de E {\displaystyle E} tel que P 2 ( F ) X {\displaystyle P_{2}(F)\subset X} ou P 2 ( F ) X ¯ {\displaystyle P_{2}(F)\subset {\bar {X}}} . On obtient alors une nouvelle factorisation w = u v 1 v N z {\displaystyle w=uv_{1}\cdots v_{N}z} avec

u = w 0 w i 0 1 {\displaystyle u=w_{0}\cdots w_{i_{0}-1}} , v j = w i j 1 w i j 1 + 1 w i j 1 {\displaystyle v_{j}=w_{i_{j-1}}w_{i_{j-1}+1}\cdots w_{i_{j}-1}} pour j = 1 , , N {\displaystyle j=1,\ldots ,N} et z = w i N v {\displaystyle z=w_{i_{N}}\cdots v} .

Puisque L {\displaystyle L} et K {\displaystyle K} vérifient la condition ( E N ) {\displaystyle (E'_{N})} , cette factorisation donne deux paires ( m , n ) [ [ 0 , N ] ] 2 {\displaystyle (m,n)\in [[0,N]]^{2}} et ( m , n ) [ [ 0 , N ] ] 2 {\displaystyle (m',n')\in [[0,N]]^{2}} respectivement qui délimitent des blocs qu'on peut éliminer dans w {\displaystyle w} . Plus précisément :

w L w 0 w i m w i n + 1 w N v L w 0 w i m w i n + 1 w N v L w 0 w i m w i n + 1 w N v K w K {\displaystyle {\begin{aligned}w\in L&\iff w_{0}\cdots w_{i_{m}}w_{i_{n}+1}\cdots w_{N}v\in L\\&\iff w_{0}\cdots w_{i_{m'}}w_{i_{n}'+1}\cdots w_{N}v\in L\\&\iff w_{0}\cdots w_{i_{m'}}w_{i_{n}'+1}\cdots w_{N}v\in K\iff w\in K\end{aligned}}}

par définition de ( m , n ) {\displaystyle (m,n)} , F {\displaystyle F} et ( m , n ) {\displaystyle (m',n')} successivement. Ceci fournit l'hérédité de la propriété et permet de conclure la récurrence. On obtient finalement que si les langages L {\displaystyle L} et K {\displaystyle K} coïncident sur les mots de longueur < R {\displaystyle <R} , ils sont égaux, ce qui achève la preuve du point b).

Notes

Références

  • Yehoshua Bar-Hillel, Micha A. Perles et Eli Shamir, « On formal properties of simple phrase structure grammars », Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung, vol. 14,‎ , p. 143-172
  • William F. Ogden, « A Helpful Result for Proving Inherent Ambiguity », Mathematical Systems Theory, vol. 2, no 3,‎ , p. 191-194 (DOI 10.1007/BF01694004)
  • Jeffrey Jaffe, « A Necessary and Sufficient Pumping Lemma for Regular Languages », SIGACT News, vol. 10, no 2,‎ , p. 48–49 (ISSN 0163-5700, DOI 10.1145/990524.990528, lire en ligne)
  • Andrzej Ehrenfeucht, Rohit Jivanlal Parikh et Grzegorz Rozenberg, « Pumping lemmas for regular sets », SIAM J. Comput., vol. 10,‎ , p. 536–541
  • Olivier Carton, Langages formels, calculabilité et complexité, [détail de l’édition] (lire en ligne)
  • Jacques Sakarovitch, Éléments de théorie des automates, Vuibert, , 816 p. (ISBN 978-2-7117-4807-5)
    Traduction anglaise avec corrections : Elements of Automata Theory, Cambridge University Press 2009, (ISBN 978-0-52184425-3)

Voir aussi


  • icône décorative Portail de l'informatique théorique