2018年4月 - 2021年3月
完全オンライン型強化学習システムにおける時間と空間の分節化
日本学術振興会 科学研究費助成事業 基盤研究(C) 基盤研究(C)
本年度は,強化学習における空間と時間の分節化ということで,まず,入力差分学習と成長型自己組織化マップを用いた強化学習における,学習周期の動的な最適化について研究を進めた.徐々に周期を大きくしていく・小さくしていく,または,学習がうまくいかないときにランダムに周期を変更する方法などについて研究を進め,どの手法でも学習可能であることを確認した.ランダムに周期を変更する方法は,倒立振り子問題ではパラメータがあらかじめ設定されているものと比べて平均的に倍の時間で学習を完了することができていた.一方で,問題点としては,周期を徐々に変化させる場合の拡大・収縮率のパラメータによっては状態遷移の変化が大きすぎて最適な政策を学習できず,周期が変わり続けること,学習が成功したという状態を定義することが容易であれば良いが,そうでないときにどうするかということが明らかになった.これらは国内会議・国際会議にて発表した.
さらに,最適化アルゴリズムについて,収束速度という観点から改善する方法を考案し,その有効性を確認した.最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが,解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し,その有効性を明らかにした.また,解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた.国内会議・国際会議にて発表した.
さらに,最適化アルゴリズムについて,収束速度という観点から改善する方法を考案し,その有効性を確認した.最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが,解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し,その有効性を明らかにした.また,解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた.国内会議・国際会議にて発表した.
- ID情報
-
- 課題番号 : 18K11473
- 体系的課題番号 : JP18K11473
この研究課題の成果一覧
絞り込み
論文
3-
Proc. of 22nd International Symposium on Advanced Intelligent Systems 7-16 2021年12月15日 査読有り
-
Proc. of Joint 11th International Conference on Soft Computing and Intelligent Systems and 21st International Symposium on Advanced Intelligent Systems (SCIS-ISIS) 351-355 2020年12月5日 査読有り
-
Applied Soft Computing 97(B) 106723-106723 2020年9月16日 査読有り
講演・口頭発表等
3-
インテリジェント・システム・シンポジウム2021 2021年9月21日
-
第37回ファジィシステムシンポジウム 2021年9月13日
-
第36回ファジィシステムシンポジウム 2020年9月8日