論文

査読有り
2011年9月

部分観測下での最悪ケースに基づくスーパバイザの強化学習

電子情報通信学会論文誌A
  • 梶原弘治
  • ,
  • 山﨑達志

J94-A
9
開始ページ
683
終了ページ
691
記述言語
日本語
掲載種別
研究論文(学術雑誌)
出版者・発行元
電子情報通信学会

スーパバイザ制御では,スーパバイザと呼ばれる制御器が離散事象システムに対して,生起を許可する事象の集合(制御パターン)を指定する.筆者らはこれまでに,最悪ケースを考慮した最適スーパバイザを強化学習により設計する手法を提案している.しかしながら,現実のシステムにおいては,すべての事象の生起を完全には観測できない.そのため,事象の生起が部分観測の場合も考慮して制御パターンをスーパバイザに学習させる必要がある.本論文では,完全観測の場合において提案した手法を拡張し,部分観測環境において最悪ケースにおける評価値を最大化する制御パターンの与え方をスーパバイザに学習させる手法を提案する.部分観測環境を扱うために,射影関数と不可観測事象列の生起に対する報酬のデータベースを導入する.これらから与えられる情報をもとにスーパバイザは学習を進めていく.このときスーパバイザは,制御対象の現在の状態の推定と評価値の更新を行うことにより,最適な制御パターンの与え方を学習する.計算機実験により,部分観測環境においても最適な制御パターンをスーパバイザが学習できることを示し,提案手法の有効性を示す.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110008711917
CiNii Books
http://ci.nii.ac.jp/ncid/AN10013345
URL
http://id.ndl.go.jp/bib/11224749
ID情報
  • ISSN : 0913-5707
  • CiNii Articles ID : 110008711917
  • CiNii Books ID : AN10013345

エクスポート
BibTeX RIS