shiroyukiJPの日記

Q学習

まず、状態遷移を考える。
そして、状態遷移＋行動の評価値を決定するのがＱ学習。
基本的には、できるだけ良い評価を得られるような行動を取るよう、思考が改善されていく。

行動指針（さっきは思考と書いた）のことを政策、と呼ぶらしい。