Q-learning

Acest articol sau secțiune are mai multe probleme. Puteți să contribuiți la rezolvarea lor sau să le comentați pe pagina de discuție. Pentru ajutor, consultați pagina de îndrumări.

Trebuie pus(ă) în formatul standard. Marcat din martie 2012.
Are bibliografia incompletă sau inexistentă. Marcat din martie 2012.

Nu ștergeți etichetele înainte de rezolvarea problemelor.

Q-Learning este o tehnică de învățare automată care asociază o utilitate pentru fiecare pereche stare-acțiune. Elementele de bază sunt : agent, stare, acțiune, recompensă. La orice moment, agentul se află într-o anumită stare și decide asupra uneia dintre mai multe acțiuni. Pentru acțiunea sa, agentul primește o recompensă.

Scopul agentului este de a obține o recompensă totală maximă. Agentul lucrează cu o funcție de calitate (quality), pe care și-o adaptează pe măsură ce explorează mediul: : $Q:S\times A\to \mathbb {R}$ .