Q-learning

Acest articol sau secțiune are mai multe probleme. Puteți să contribuiți la rezolvarea lor sau să le comentați pe pagina de discuție. Pentru ajutor, consultați pagina de îndrumări.
  • Trebuie pus(ă) în formatul standard. Marcat din martie 2012.
  • Are bibliografia incompletă sau inexistentă. Marcat din martie 2012.

 Nu ștergeți etichetele înainte de rezolvarea problemelor.

Q-Learning este o tehnică de învățare automată care asociază o utilitate pentru fiecare pereche stare-acțiune. Elementele de bază sunt : agent, stare, acțiune, recompensă. La orice moment, agentul se află într-o anumită stare și decide asupra uneia dintre mai multe acțiuni. Pentru acțiunea sa, agentul primește o recompensă.

Scopul agentului este de a obține o recompensă totală maximă. Agentul lucrează cu o funcție de calitate (quality), pe care și-o adaptează pe măsură ce explorează mediul: : Q : S × A R {\displaystyle Q:S\times A\to \mathbb {R} } .

Actualizarea Q se face după alegerea unei acțiuni at în starea st, care duce agentul în starea st+1, ținând cont de:

fosta valoare a lui Q
α - rata de învățare
γ - factorul de atenuare
Rt+1 - recompensa primită după realizarea acțiunii at
valorile Q pentru starea st+1 și acțiunile posibile at+1 din st+1 : Q(st, at ) = (1 - α) * Q(st, at) + α * Rt+1 + γ * max Q(st+1, at+1)