Programming Serendipity

気まぐれに大まかに生きるブログ

読書メモ2024

「​」

強化学習(著:森村哲郎)

  • マルコフ性(Markov property): サイコロの目のようなi.i.d. (独立同一分布)よりも弱く、平均値のようなこれまでの全ての値に依存するよりは強い条件で、現在の状態からのみ確率が求まるもの
  • マルコフ過程(Markov process): マルコフ性を持つ確率過程
  • マルコフ連鎖(Markov chain): 状態変数の値が離散的なマルコフ過程
  • マルコフ決定過程(Markov decision process | MDP): マルコフ連鎖に行動(action)と報酬(reward)を組み入れたもの。式にすると、state, action, 初期状態、状態遷移、報酬関数の5つで $$ M \stackrel{\triangle}{=} \{\mathcal{S}, \mathcal{A}, p_{s_{0}}, p_{T}, g\} $$
  • 決定的方策(deterministic policy): 判断する関数が常に一定のもの $\Pi^{d} \stackrel{\triangle}{=} \{\pi^{d}:\mathcal{S}\to\mathcal{A}\}$
  • 定常なマルコフ方策(stationary Markov policy): 過去の経験とは独立で、時間とともに方策関数が変化しないもの。決定的方策もこれに含む $\pi^{s}$
  • 定常かつ決定的なものは $\pi^{sd}$ のように記述
  • 履歴依存の方策(history-dependent policy): 過去の経験に基づいて行動選択確率を決めるもの、マルコフ方策の逆 $\pi^{h}$
  • 履歴依存の方策は、超指数関数的に組み合わせ爆発が起こってしまうので、取り扱い困難。実は大体のケースでマルコフ方策を考えるだけで十分
  • 分位点(quantile): 中央値(median)の一般化で、中央値は真ん中の値を取り出すが、分位点は真ん中以外の取り出すポイントを任意に定めたもの、0.05分位点など
  • マルコフ決定過程には、ゴール状態があるもの、時間切れで停止するもの、無限に終わらないもの、の3種類あるが、ゴール後も時間切れ後も確率1で同じ状態にとどまり続けるものとすることで、3つ目のケースに単一化して考えることができる