共同研究・競争的資金等の研究課題

2018年4月 - 2021年3月

完全オンライン型強化学習システムにおける時間と空間の分節化

日本学術振興会  科学研究費助成事業 基盤研究(C)  基盤研究(C)

課題番号
18K11473
体系的課題番号
JP18K11473
配分額
(総額)
4,290,000円
(直接経費)
3,300,000円
(間接経費)
990,000円

本年度は,強化学習における空間と時間の分節化ということで,まず,入力差分学習と成長型自己組織化マップを用いた強化学習における,学習周期の動的な最適化について研究を進めた.徐々に周期を大きくしていく・小さくしていく,または,学習がうまくいかないときにランダムに周期を変更する方法などについて研究を進め,どの手法でも学習可能であることを確認した.ランダムに周期を変更する方法は,倒立振り子問題ではパラメータがあらかじめ設定されているものと比べて平均的に倍の時間で学習を完了することができていた.一方で,問題点としては,周期を徐々に変化させる場合の拡大・収縮率のパラメータによっては状態遷移の変化が大きすぎて最適な政策を学習できず,周期が変わり続けること,学習が成功したという状態を定義することが容易であれば良いが,そうでないときにどうするかということが明らかになった.これらは国内会議・国際会議にて発表した.
さらに,最適化アルゴリズムについて,収束速度という観点から改善する方法を考案し,その有効性を確認した.最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが,解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し,その有効性を明らかにした.また,解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた.国内会議・国際会議にて発表した.

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-18K11473
ID情報
  • 課題番号 : 18K11473
  • 体系的課題番号 : JP18K11473

この研究課題の成果一覧

論文

  3

講演・口頭発表等

  3