オンラインEM アルゴリズムによる強化学習法のacrobot 制御への応用

電子情報通信学会論文誌

吉本潤一郎
石井信
佐藤雅昭

巻: J83-D-II
号: 3
開始ページ: 1024
終了ページ: 1033
記述言語: 日本語
掲載種別: 研究論文（学術雑誌）
出版者・発行元: 一般社団法人電子情報通信学会

acrobotは2リンク2関節からなるロボットで, 第2関節のみにアクチュエータが存在する.acrobotは非線形なダイナミックスをもち, 状態変数及び制御変数の空間がともに連続であるために, 強化学習によってこの制御を獲得することは難しい課題の一つである.本論文では, acrobotをバランスする制御に強化学習を応用する.我々の強化学習法はactor-criticアーキテクチャを用いて学習が行われる.actorは現在の状態に対して制御信号を出力し, criticは将来を通して得られる報酬の累積(期待報酬)を予測する.actorとcriticはともに正規化ガウス関数ネットワークによって近似され, オンラインEMアルゴリズムを用いて学習が行われる.また, criticの学習を促進させるための新たな手法を導入する.本手法が少ない試行回数から良い制御を獲得できることを計算機シミュレーションの結果により示す.

リンク情報

CiNii Articles: http://ci.nii.ac.jp/naid/110003183754
CiNii Books: http://ci.nii.ac.jp/ncid/AA11340957
URL: http://id.ndl.go.jp/bib/5331789

ID情報

ISSN : 0915-1923
CiNii Articles ID : 110003183754
CiNii Books ID : AA11340957

エクスポート: BibTeX RIS

石井信

論文

オンラインEM アルゴリズムによる強化学習法のacrobot 制御への応用

メニュー

共著者の一覧

フォロー一覧