MISC

2005年7月20日

方策オフ型 Natural Actor-Critic 法

電子情報通信学会技術研究報告. NC, ニューロコンピューティング
  • 森 健
  • ,
  • 中村 泰
  • ,
  • 石井 信

105
211
開始ページ
25
終了ページ
30
記述言語
英語
掲載種別
出版者・発行元
一般社団法人電子情報通信学会

近年提案されたNatural Actor-Critic法(NAC)は, actorの学習に自然方策勾配法, criticの学習にLSTD-Q(λ)法を用いたもので, 高次元の力学系に対する比較的効率の良いモデルフリー強化学習法として注目されている.しかしながらNACは, 方策オン型学習法であるため二つの問題がある.第一に, 現在の方策勾配の推定に過去の方策の下で生成した系列を用いることができない.第二に, 探索・搾取の制御の導入に大きな制約がある.これらの問題を解決するために, 我々は方策オフ型のLSTD-Q(λ)法を提案しNACのcriticの学習法として採用する.これを方策オフ型NACと呼ぶ.提案手法では, 過去の方策の下で生成された多数の系列を用いて現在の方策に対する方策勾配を推定することで, 方策勾配推定のバリアンスを下げることができる.また, 方策最適化と別に探索制御を行うことで, 探索・搾取を効果的に制御することができる.ヘビ型運動シミュレータを用いた計算機実験により, NACよりも少ないサンプル数で, かつ安定して学習できることを示す.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110003234356
CiNii Books
http://ci.nii.ac.jp/ncid/AN10091178
ID情報
  • ISSN : 0913-5685
  • CiNii Articles ID : 110003234356
  • CiNii Books ID : AN10091178
  • identifiers.cinii_nr_id : 1000070403334

エクスポート
BibTeX RIS