2011年9月
部分観測下での最悪ケースに基づくスーパバイザの強化学習
電子情報通信学会論文誌A
- ,
- 巻
- J94-A
- 号
- 9
- 開始ページ
- 683
- 終了ページ
- 691
- 記述言語
- 日本語
- 掲載種別
- 研究論文(学術雑誌)
- 出版者・発行元
- 電子情報通信学会
スーパバイザ制御では,スーパバイザと呼ばれる制御器が離散事象システムに対して,生起を許可する事象の集合(制御パターン)を指定する.筆者らはこれまでに,最悪ケースを考慮した最適スーパバイザを強化学習により設計する手法を提案している.しかしながら,現実のシステムにおいては,すべての事象の生起を完全には観測できない.そのため,事象の生起が部分観測の場合も考慮して制御パターンをスーパバイザに学習させる必要がある.本論文では,完全観測の場合において提案した手法を拡張し,部分観測環境において最悪ケースにおける評価値を最大化する制御パターンの与え方をスーパバイザに学習させる手法を提案する.部分観測環境を扱うために,射影関数と不可観測事象列の生起に対する報酬のデータベースを導入する.これらから与えられる情報をもとにスーパバイザは学習を進めていく.このときスーパバイザは,制御対象の現在の状態の推定と評価値の更新を行うことにより,最適な制御パターンの与え方を学習する.計算機実験により,部分観測環境においても最適な制御パターンをスーパバイザが学習できることを示し,提案手法の有効性を示す.
- リンク情報
-
- CiNii Articles
- http://ci.nii.ac.jp/naid/110008711917
- CiNii Books
- http://ci.nii.ac.jp/ncid/AN10013345
- URL
- http://id.ndl.go.jp/bib/11224749
- ID情報
-
- ISSN : 0913-5707
- CiNii Articles ID : 110008711917
- CiNii Books ID : AN10013345