2010年10月28日
動的計画法によるリターン分布推定
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 = IEICE technical report. IBISML, Information-based induction sciences and machine learning
- ,
- ,
- ,
- ,
- 巻
- 110
- 号
- 265
- 開始ページ
- 283
- 終了ページ
- 290
- 記述言語
- 日本語
- 掲載種別
- 出版者・発行元
- 一般社団法人電子情報通信学会
標準的な強化学習の枠組みでは, Bellman方程式を用いてリターン(割引報酬和)の期待値を推定し,意思決定を行う.近年,我々はこの枠組みを拡張し,分布Bellman方程式を用いてリターンの分布を推定する方法を提案した.これにより,バリュー・アット・リスクなどのリスクを考慮した任意の指標に基づく意思決定が行えるようになったが,分布Bellman方程式を用いた手法の収束性などの理論的性質は末だ解明されていない.本論文では,分布Bellman方程式を動的計画法によって解いた場合,解が初期近似分布に依存せず常に真のリターン分布に収束することを証明する.さらに,リターン分布推定量のモーメントの収束率も示す.最後に,得られた理論結果から,既存のリターン分布推定法の改善方法を提案し,数値実験からその有効性を示す.
- リンク情報
-
- CiNii Articles
- http://ci.nii.ac.jp/naid/110008153993
- CiNii Books
- http://ci.nii.ac.jp/ncid/AA12482480
- URL
- http://id.ndl.go.jp/bib/10915262
- ID情報
-
- ISSN : 0913-5685
- CiNii Articles ID : 110008153993
- CiNii Books ID : AA12482480