MISC

2010年10月28日

動的計画法によるリターン分布推定

電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 = IEICE technical report. IBISML, Information-based induction sciences and machine learning
  • 森村 哲郎
  • ,
  • 杉山 将
  • ,
  • 鹿島 久嗣
  • ,
  • 八谷 大岳
  • ,
  • 田中 利幸

110
265
開始ページ
283
終了ページ
290
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人電子情報通信学会

標準的な強化学習の枠組みでは, Bellman方程式を用いてリターン(割引報酬和)の期待値を推定し,意思決定を行う.近年,我々はこの枠組みを拡張し,分布Bellman方程式を用いてリターンの分布を推定する方法を提案した.これにより,バリュー・アット・リスクなどのリスクを考慮した任意の指標に基づく意思決定が行えるようになったが,分布Bellman方程式を用いた手法の収束性などの理論的性質は末だ解明されていない.本論文では,分布Bellman方程式を動的計画法によって解いた場合,解が初期近似分布に依存せず常に真のリターン分布に収束することを証明する.さらに,リターン分布推定量のモーメントの収束率も示す.最後に,得られた理論結果から,既存のリターン分布推定法の改善方法を提案し,数値実験からその有効性を示す.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110008153993
CiNii Books
http://ci.nii.ac.jp/ncid/AA12482480
URL
http://id.ndl.go.jp/bib/10915262
ID情報
  • ISSN : 0913-5685
  • CiNii Articles ID : 110008153993
  • CiNii Books ID : AA12482480

エクスポート
BibTeX RIS