2009-05-31から1日間の記事一覧

参考ページ

http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/QL/Q-Learning.html

まず、状態遷移を考える。そして、状態遷移＋行動の評価値を決定するのがＱ学習。基本的には、できるだけ良い評価を得られるような行動を取るよう、思考が改善されていく。行動指針（さっきは思考と書いた）のことを政策、と呼ぶらしい。