http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/QL/Q-Learning.html
まず、状態遷移を考える。 そして、状態遷移+行動の評価値を決定するのがQ学習。 基本的には、できるだけ良い評価を得られるような行動を取るよう、思考が改善されていく。行動指針(さっきは思考と書いた)のことを政策、と呼ぶらしい。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。