2009-05-31から1日間の記事一覧

参考ページ

http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/QL/Q-Learning.html

Q学習

まず、状態遷移を考える。 そして、状態遷移+行動の評価値を決定するのがQ学習。 基本的には、できるだけ良い評価を得られるような行動を取るよう、思考が改善されていく。行動指針(さっきは思考と書いた)のことを政策、と呼ぶらしい。