2010年10月28日

動的計画法によるリターン分布推定

電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 = IEICE technical report. IBISML, Information-based induction sciences and machine learning

森村哲郎
杉山将
鹿島久嗣
八谷大岳
田中利幸

巻: 110
号: 265
開始ページ: 283
終了ページ: 290
記述言語: 日本語
掲載種別
出版者・発行元: 一般社団法人電子情報通信学会

標準的な強化学習の枠組みでは, Bellman方程式を用いてリターン(割引報酬和)の期待値を推定し,意思決定を行う.近年,我々はこの枠組みを拡張し,分布Bellman方程式を用いてリターンの分布を推定する方法を提案した.これにより,バリュー・アット・リスクなどのリスクを考慮した任意の指標に基づく意思決定が行えるようになったが,分布Bellman方程式を用いた手法の収束性などの理論的性質は末だ解明されていない.本論文では,分布Bellman方程式を動的計画法によって解いた場合,解が初期近似分布に依存せず常に真のリターン分布に収束することを証明する.さらに,リターン分布推定量のモーメントの収束率も示す.最後に,得られた理論結果から,既存のリターン分布推定法の改善方法を提案し,数値実験からその有効性を示す.

リンク情報

CiNii Articles: http://ci.nii.ac.jp/naid/110008153993
CiNii Books: http://ci.nii.ac.jp/ncid/AA12482480
URL: http://id.ndl.go.jp/bib/10915262

ID情報

ISSN : 0913-5685
CiNii Articles ID : 110008153993
CiNii Books ID : AA12482480

エクスポート: BibTeX RIS

鹿島久嗣

MISC

動的計画法によるリターン分布推定

メニュー

共著者の一覧