2009-05-31 Q学習 まず、状態遷移を考える。 そして、状態遷移+行動の評価値を決定するのがQ学習。 基本的には、できるだけ良い評価を得られるような行動を取るよう、思考が改善されていく。行動指針(さっきは思考と書いた)のことを政策、と呼ぶらしい。