宮崎 和光

J-GLOBALへ         更新日: 19/10/07 11:05
 
アバター
研究者氏名
宮崎 和光
 
ミヤザキ カズテル
URL
http://www7b.biglobe.ne.jp/~kazuteru/index.html
所属
(独)大学改革支援・学位授与機構
部署
研究開発部
職名
准教授
学位
博士(工学)(東京工業大学), 修士(工学)(東京工業大学)

研究分野

 
 

経歴

 
2016年4月
 - 
現在
独立行政法人大学改革支援・学位授与機構 研究開発部 准教授
 
2013年4月
 - 
現在
明治大学 大学院理工学研究科 兼任講師
 
2011年4月
 - 
2016年3月
独立行政法人大学評価・学位授与機構 研究開発部 准教授
 
2007年4月
 - 
2011年3月
独立行政法人大学評価・学位授与機構 学位審査研究部 准教授
 
2004年4月
 - 
2007年3月
独立行政法人大学評価・学位授与機構 学位審査研究部 助教授
 
2001年10月
 - 
現在
明治大学 理工学部 機械情報工学科 兼任講師
 
2000年4月
 - 
2004年3月
大学評価・学位授与機構 学位審査研究部 助教授
 
1999年10月
 - 
2000年3月
学位授与機構 審査研究部 助教授
 
1996年
 - 
1998年
東京工業大学大学院総合理工学研究科 助手
 
1998年
 - 
1999年10月
東京工業大学大学院総合理工学研究科 リサーチアソシエイト
 

学歴

 
 
 - 
1996年
東京工業大学 大学院総合理工学研究科 知能科学
 
 
 - 
1991年
明治大学 工学部 精密工学科
 

委員歴

 
2018年1月
 - 
2018年12月
計測自動制御学会 知能工学部会 主査
 
2017年1月
 - 
2017年12月
計測自動制御学会 知能工学部会  副主査
 
2017年4月
 - 
現在
電気学会 実社会システムの高度なAI化を目指した機械学習技術応用協同研究委員会  委員
 
2016年4月
 - 
現在
電気学会 エージェントとの共創的な相互作用のモデル化に向けた機械学習技術協同研究委員会  委員
 
2014年10月
 - 
2016年9月
電気学会 大規模・複雑システムを対象とした機械学習応用技術協同研究委員会  委員
 
2013年1月
 - 
2016年2月
計測自動制御学会  システム・情報部門 和文論文誌 Associate Editor
 
2009年
 - 
現在
Journal of Advanced Computational Intelligence and Intelligent Informatics  Editor
 
2005年4月
 - 
2009年3月
人工知能学会  会誌編集委員
 
2005年4月
 - 
2008年3月
計測自動制御学会  知能工学部会 幹事
 
2004年5月
 - 
2006年4月
計測自動制御学会  会誌編集委員
 

受賞

 
2017年9月
電気学会 平成28年度 電子・情報・システム部門誌 優秀論文賞
受賞者: 村岡宏紀, 宮崎和光, 小林博明
 
1998年
1997年度計測自動制御学会 学術奨励賞
 
1996年
IIZUKA96 BEST PAPER AWARD
受賞者: Kazuteru Miyazaki, Masayuki Yamamura, Shigenobu Kobayashi
 
1995年
1994年度人工知能学会論文賞
受賞者: 宮崎和光, 山村雅幸, 小林重信
 
1991年
日本機械学会 畠山賞
 

論文

 
Proposal and Evaluation of Reward Sharing Method Based on Safety Level
KODAMA Naoki, MIYAZAKI Kazuteru, and KOBAYASHI Hiroaki
SICE Journal of Control, Measurement, and System Integration   11(3) 207-213   2018年5月   [査読有り]
MIYAZAKI Kazuteru, FURUKAWA Koudai, and KOBAYASHI Hiroaki
Journal of Advanced Computational Intelligence and Intelligent Informatics   21(5) 930-938   2017年9月   [査読有り]
MIYAZAKI Kazuteru
Journal of Advanced Computational Intelligence and Intelligent Informatics   21(5) 849-855   2017年9月   [査読有り]
村岡 宏紀, 宮崎 和光, 小林 博明
電気学会論文誌C   136(3) 273-281   2016年3月   [査読有り]
宮崎 和光, 井田 正明
大学評価・学位研究   15 1-15   2014年3月   [査読有り]
Kazuteru Miyazaki
JACIII   16(2) 183-190   2012年9月   [査読有り]
Seiya Kuroda,Kazuteru Miyazaki,Hiroaki Kobayashi
JACIII   16(6) 758-768   2012年9月   [査読有り]
Kazuteru Miyazaki,Shigenobu Kobayashi
JACIII   13(6) 624-630   2009年11月   [査読有り]
Takuji Watanabe,Kazuteru Miyazaki,Hiroaki Kobayashi
JACIII   13(6) 675-682   2009年11月   [査読有り]
宮崎 和光, 井田 正明, 芳鐘 冬樹, 野澤 孝之, 喜多 一
大学評価・学位研究 = RESEARCH ON ACADEMIC DEGREES AND UNIVERSITY EVALUATION   (6) 27-42   2007年12月   [査読有り]
宮崎和光, 木村元, 小林重信
人工知能学会論文誌   22(3) 332-341   2007年5月   [査読有り]
Reinforcement Learning is a kind of machine learning. We know Profit Sharing, the Rational Policy Making algorithm (RPM), the Penalty Avoiding Rational Policy Making algorithm and PS-r* to guarantee the rationality in a typical class of the Partia...
野澤 孝之, 芳鐘 冬樹, 井田 正明, 渋井 進, 宮崎 和光, 喜多 一, 川口 昭彦
大学評価・学位研究 = RESEARCH ON ACADEMIC DEGREES AND UNIVERSITY EVALUATION   (5) 37-54   2007年3月   [査読有り]
Kazuteru Miyazaki,Shigenobu Kobayashi
JACIII   11(6) 668-676   2007年7月   [査読有り]
芳鐘冬樹, 井田正明, 野沢孝之, 宮崎和光, 喜多一
知能と情報   18(2) 299-309   2006年4月   [査読有り]
大学で行われている授業の内容を示す情報源として,シラバスは大きな役割を担っていることから,シラバスを効率的に検索するための技術が求められている.特に,教育課程の評価など,厳密さが要求される場面では,検索の網羅性,正確さとともに,検索結果の提示方法の洗練も望まれる.本研究では,ユーザが入力した検索語の関連用語を考慮した検索語拡張を行い,さらに,関連用語の系列表示のもと,検索結果を分類して提示することで,シラバス検索の利便性を向上させるシステムを開発した.
宮崎和光, 井田正明, 芳鐘冬樹, 野沢孝之, 喜多一
知能と情報   17(5) 558-568   2005年10月   [査読有り]
大学評価・学位授与機構(NIAD-UE)では, 短期大学・高等専門学校卒業者及び専門学校修了者等を対象に, 単位累積加算を基にした学士の学位授与事業を行っている.この制度を利用し学士の学位授与を希望する者は, 各専門分野ごとに定められた所定の単位数以上を修得しなければならない.申請者は, 自らの判断で修得した科目をNIAD-UEが定める科目区分に合致するように分類・整理し申告する.それに対し, NIAD-UEでは, 申請者による分類の正しさを, 各専門分野の専門委員が, 各科目区分ごとに設...
野沢孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一
知能と情報   17(5) 569-586   2005年10月   [査読有り]
高等教育のカリキュラム設計や評価で必要となる.多数の教育機関にまたがる教育内容の横断的な把握を支援するため, シラバスの文書クラスタリングに基づくカリキュラム分析システムが野澤らによって開発されている.このシステムへの改善要求として, クラスタリング処理の応答性と対話性の向上が挙げられていた.本研究では, 二部グラフ構造でその関係が表現されるシラバス-専門用語の集合を同時にクラスタリングする相互クラスタリング(co-clustering)の手法をカリキュラム分析システムに導入する.相互クラ...
神谷 武志, 宮崎 和光, 森 利枝
大学評価・学位研究 = RESEARCH ON ACADEMIC DEGREES AND UNIVERSITY EVALUATION   (2) 101-111   2005年3月   [査読有り]
井田 正明, 野澤 孝之, 芳鐘 冬樹, 宮崎 和光, 喜多 一
大学評価・学位研究 = RESEARCH ON ACADEMIC DEGREES AND UNIVERSITY EVALUATION   (2) 87-97   2005年3月   [査読有り]
芳鐘 冬樹, 井田 正明, 野澤 孝之, 宮崎 和光, 喜多 一
大学評価・学位研究 = RESEARCH ON ACADEMIC DEGREES AND UNIVERSITY EVALUATION   (1) 135-143   2005年3月   [査読有り]
宮崎和光, 井田正明, 芳鐘冬樹, 野沢孝之, 喜多一
情報処理学会論文誌   46(3) 782-791   2005年3月   [査読有り]
大学評価・学位授与機構では,短期大学・高等専門学校卒業者および専門学校修了者等を対象に,単位累積加算を基にした学士の学位授与事業を行っている.この制度を利用し学士の学位授与を希望するする者は,各専門分野ごとに定められた所定の単位を修得しなければならない.申請者は,自らの判断で修得した科目を分類・整理し申告する.それに対し,大学評価・学位授与機構では,申請者による分類の正しさを,各専門分野の専門委員が申告された科目のシラバスを読むことで検討している.しかしながら,近年の申請者数の増大から,こ...
芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一
名古屋大学附属図書館研究年報   3(3) 15-22   2005年3月   [査読有り]
野沢孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一
情報処理学会論文誌   46(1) 289-300   2005年1月   [査読有り]
高等教育機関が独創的なカリキュラムを設計しようとする場合や,第三者が高等教育機関のカリキュラムの特徴を評価する場合,多数の教育機関にまたがる教育内容の横断的な把握が必要となる.しかしこれは専門家にとっても負荷の高い課題であり,カリキュラム設計や評価の方針を立てやすくするためのコンピュータを用いた支援環境が望まれる.本研究では,共通形式化されたシラバスデータを対象に,それらが含む専門用語を抽出し,その出現頻度に基づき科目間の類似度を計算しクラスタリングを行い,多角的な分類軸に沿って科目のクラ...
Kazuteru Miyazaki, Sougo Tsuboi, and Shigenobu Kobayashi
Artificial Life and Robotics   17(4) 177-181   2004年4月   [査読有り]
宮崎和光, 小林重信
人工知能学会論文誌   18 286-296   2003年11月   [査読有り]
We know the rationality theorem of Profit Sharing(PS) [Miyazaki 94, Miyazaki 99b] and the Rational Policy Making algorithm(RPM) [Miyazaki 99a] to guarantee the rationality in a typical class of Partially Observable Markov Decision Pr...
宮崎和光, 坪井創吾, 小林重信
人工知能学会論文誌   17 548-556   2002年11月   [査読有り]
The purpose of reinforcement learning is to learn an optimal policy in general. However, in 2-players games such as the othello game, it is important to acquire a penalty avoiding policy. In this paper, we focus on formation of a penalty avoiding ...
宮崎和光, 坪井創吾, 小林重信
人工知能学会論文誌   16 185-192   2001年11月   [査読有り]
Reinforcement learning is a kind of machine learning. It aims to adapt an agent to a given environment with a clue to rewards. In general, the purpose of reinforcement learning system is to acquire an optimum policy that can maximize expected rewa...
Kazuteru Miyazaki,Shigenobu Kobayashi
New Generation Comput.   19(2) 157-172   2001年6月   [査読有り]
Controlling Multiple Cranes Using Multi-Agent Reinforcement Learning: Emerging Coordination among Competitive Agents
Arai, S., Miyazaki, K. and Kobayashi, S.
IEICE Transactions on Communications   E-83-B(5) 1039-1047   2000年5月   [査読有り]
宮崎和光, 荒井幸代, 小林重信
人工知能学会誌   14(6) 1156-1164   1999年11月   [査読有り]
Most of multi-agent systems have been developed in the field of Distributed Artificial Intelligence (DAI) whose schemes are based on plenty of pre-knowledge of the agents' world or organized relationships among the agents. However, these kind of k...
宮崎和光, 荒井幸代, 小林重信
人工知能学会誌   14(1) 148-156   1999年1月   [査読有り]
Partially Observable Markov Decision Process (POMDP) is a representative class of non-Markovian environments, where agents sense different environmental states as the same sensory input. We recognize that full implementation of POMDPs must overcom...
荒井幸代, 宮崎和光, 小林重信
人工知能学会誌   13(4) 609-618   1998年7月   [査読有り]
Most of multi-agent systems have been developed in the field of Distributed Artificial Intelligence (DAI) whose schemes are based on plenty of pre-knowledge of the agents' world or organized relationships among the agents. However, these kind of k...
宮崎和光, 山村雅幸, 小林重信
人工知能学会誌   12(1) 78-89   1997年1月   [査読有り]
Reinforcement learning is a kind of machine learning. It aims to adapt an agent to a given environment with a clue to rewards. Profit sharing (PS) can get rewards efficiently at an initial learning phase. However, it can not always learn an optimu...
Kazuteru Miyazaki,Masayuki Yamamura,Shigenobu Kobayashi
Artif. Intell.   91(1) 155-171   1997年   [査読有り][招待有り]
宮崎和光, 山村雅幸, 小林重信
人工知能学会誌   11(5) 804-808   1996年9月   [査読有り]
k-Certainty Exploration Method gives top priority for selection to an action whose number of selection is the fewest. However it doesn't consider any state-transition probability. Therefore, though it guarantees the rationality and the efficiency ...
宮崎和光, 山村雅幸, 小林重信
人工知能学会誌   10(3) 454-463   1995年5月   [査読有り]
Reinforcement learning aims to adapt a system to an unkown environment according to rewards. There are two issues to handle delayed reward and uncertainty. Q-learning is a representative reinforcement learning method. It is used by many works sinc...
宮崎和光, 山村雅幸, 小林重信
人工知能学会誌   9(4) 580-587   1994年7月   [査読有り]
Reinforcement learning is a kind of machine learning. It aims to adapt a system to a given environment according to rewards. We consider profit sharing that is a representative reinforcement learning method. A rule sequence applied between reward ...

Misc

 
Research on Consistency between Diploma Policies and Nomenclature of Major Disciplines : Deep Learning Approach
MIYAZAKI Kazuteru, TAKAHASHI Nozomi, and MORI Rie
2019 7th International Conference on Information and Education Technology (ICIET2019)   to appear   2019年3月   [査読有り]
Consistency Assessment between Diploma Policy and Curriculum Policy using Character-level CNN
MIYAZAKI Kazuteru, and IDA Masaaki
Joint 10th International Conference on Soft Computing and Intelligent Systems and 19th International Symposium on Advanced Intelligent Systems (SCIS&ISIS2018)      2018年12月   [査読有り]
KODAMA Naoki, MIYAZAKI Kazuteru, and HARADA Taku
2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA2018)   983-988   2018年11月   [査読有り]
SHIRAISHI Daisuke, MIYAZAKI Kazuteru, and KOBAYASHI Hiroaki
Lecture Notes in Computer Science (International Conference on Principles and Practice of Multi-Agent Systems (PRIMA2018))   11224 638-645   2018年10月   [査読有り]
MIYAZAKI Kazuteru, KODAMA Naoki, and KOBAYASHI Hiroaki
IntelliSys 2018   187-200   2018年9月   [査読有り]
MIZUNO Daisuke, MIYAZAKI Kazuteru, and KOBAYASHI Hiroaki
Biologically Inspired Cognitive Architectures Meeting   228-233   2018年8月   [査読有り]
MIYAZAKI Kazuteru
Procedia Computer Science (2017 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2017))   123 302-307   2018年   [査読有り]
Kazuteru Miyazaki, Koudai Furukawa and Hiroaki Kobayashi
Lecture Notes in Computer Science 「Multi-Agent Systems and Agreement Technologies」, 14th European Conference on Multi-Agent Systems   10207    2017年6月   [査読有り]
MIYAZAKI Kazuteru
Procedia Computer Science (2016 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2016))   88 94-101   2016年12月   [査読有り]
Kazuteru Miyazaki, Koudai Furukawa and Hiroaki Kobayashi
International Workshop on Multiagent Learning: Theory and Applications   127-130   2016年9月   [査読有り]
The Necessity of a Secondary System in Multi-agent Learning
MIYAZAKI Kazuteru
The First International Symposium on Swarm Behavior and Bio-Inspired Robotics   299-305   2015年10月   [査読有り]
MIYAZAKI Kazuteru
International Journal of Machine Learning and Computing (2014 International Conference on Artificial Intelligence (ICOAI 2014))   5(2) 121-126   2015年4月   [査読有り]
Kazuteru Miyazaki,Jun'ichi Takeno
Procedia Computer Science (2014 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2014))   41 15-22   2014年12月   [査読有り]
MIYAZAKI Kazuteru, Ida Masaaki
SICE Annual Conference 2014   928-934   2014年9月   [査読有り]
宮崎和光, 井田正明
知能と情報   26(2) 42-50   2014年4月
Proposal of a Propagation Algorithm of the Expected Failure Probability and the Effectiveness on Multi-agent Environment
Kazuteru Miyazaki, Hiroki Muraoka, Hiroaki Kobayashi
   2013年9月   [査読有り]
宮崎 和光
計測と制御 = Journal of the Society of Instrument and Control Engineers   52(5) 462-467   2013年5月
Proposal of an Exploitation-oriented Learning Method on Multiple Rewards and Penalties Environments
Kazuteru Miyazaki
The 2nd International Conference on Applied and Theoretical Information Systems Research (2nd ATISR)      2012年12月   [査読有り]
Kazuteru Miyazaki, Masaaki Ida
The 6th International Conference on Soft Computing and Intelligent Systems and the 13th International Symposium on Advanced Intelligent Systems (SCIS-ISIS 2012)      2012年11月   [査読有り]
Kazuteru Miyazaki,Masaki Itou,Hiroaki Kobayashi
Intelligent Information and Database Systems - 4th Asian Conference, ACIIDS 2012, Kaohsiung, Taiwan, March 19-21, 2012, Proceedings, Part I, Lecture Notes in Computer Science   7196 270-280   2012年   [査読有り]
Kazuteru Miyazaki,Masaaki Ida
Recent Advances in Reinforcement Learning - 9th European Workshop, EWRL 2011, Athens, Greece, September 9-11, 2011, Revised Selected Papers, Lecture Notes in Computer Science   7188 333-344   2011年   [査読有り]
Seiya Kuroda,Kazuteru Miyazaki,Hiroaki Kobayashi
Recent Advances in Reinforcement Learning - 9th European Workshop, EWRL 2011, Athens, Greece, September 9-11, 2011, Revised Selected Papers, Lecture Notes in Computer Science   7188 297-308   2011年   [査読有り]
Kazuteru Miyazaki
Intelligent Data Engineering and Automated Learning - IDEAL 2010, 11th International Conference, Paisley, UK, September 1-3, 2010. Proceedings   178-185   2010年9月   [査読有り]
Threshold learning in the improved penalty avoiding rational policy making algorithm
Kazuteru Miyazaki, Ryouhei Kobayashi, Hiroaki Kobayashi
SICE Annual Conference 2010   3240-3245   2010年8月   [査読有り]
Automatic Tuning of Judgement Parameter in Continuous State Exploitation-oriented Learning
MIYAZAKI Kazuteru
SICE Annual Conference 2010   3246-3249   2010年8月   [査読有り]
Development of the Active Course Classification Support System with a Learning Mechanism
Miyazaki, K., Yoshikane, F. and Ida, M.
ICROSS-SICE International Joint Conference 2009 (ICCAS-SICE 2009)   1189-1194   2009年8月   [査読有り]
A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Space
Takuji Watanabe, Kazuteru Miyazaki, Hiroaki Kobayashi
   2009年   [査読有り]
Consideration on Document Structure of Syllabi - Advanced Engineering Programs of Colleges of Technology
M. Ida, K. Miyazaki
SCIS&ISIS 2008   172-175   2008年9月   [査読有り]
T. Watanabe, K. Miyazaki, H. Kobayashi
SICE Annual Conference 2008   2039-2044   2008年8月   [査読有り]
MIYAZAKI KAZUTERU, KOBAYASHI SHIGENOBU
Intelligent Data Engineering and Automated Learning–IDEAL 200   1-8   2008年   [査読有り]
Proposal and Evaluation of the Penalty Avoiding Rational Policy Making Algorithm with Penalty Level
Miyazaki, K., Kojima, T. and Kobayashi, H.
International Conference on Instrumentation, Control and Information 2007 (SICE Annual Conference 2007)   2766-2773   2007年9月   [査読有り]
Improvement of the Penalty Avoiding Rational Policy Making algorithm to Real World Robotics
Miyazaki, K., Namatame, T., Kojima, T. and Kobayashi, H.
3th International Conference on Advanced Robotics (ICAR 2007)   1183-1188   2007年8月   [査読有り]
宮崎和光
人工知能学会誌   22(1)    2007年1月
宮崎和光
人工知能学会誌   21(5) 517-521   2006年9月
芳鐘冬樹, 井田正明, 野沢孝之, 宮崎和光, 喜多一
電子情報通信学会技術研究報告   105(298(ET2005 27-37)) 53-58   2005年9月
大学で行われている授業の内容を示す情報源として, シラバスは大きな役割を担っていることから, シラバスを効率的に検索するための技術が求められている.著者らは, 検索語の関連用語の存在に着目して, 関連用語の概念マップに従って検索結果をツリー形式で表示するシステムを作成している.本発表では, 検索効率向上のため, 辞書に基づく検索語拡張とカテゴリ検索の2点について機能拡充を行った改善システムについて報告する.
宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 喜多一
学位研究   (18) 133-150   2004年3月
Reinforcement Learning in Multiple Rewards and Penalties Environments (共著)
Joint 2nd International Conference on Soft Computing and Intelligent Systems and 5th International Symposium on Advanced Intelligent Systems   CD-ROM    2004年
喜多一, 宮崎和光
システム/制御/情報 : システム制御情報学会誌   47(9) 457-458   2003年9月
Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game (共著)
The 4th International Symposium on Advanced Intelligent Systems   166-169   2003年
On Development of a Course Classification System using Syllabus Data (共著)
1st Asia-Pacific International Conference on Computational Methods in Engineering   68-69   2003年
Reinforcement Learning in 2-players games(共著)
Proc. of the 7th International Symposium on Artificial Life and Robotics   183-186   2002年
Learning Robust Policies for Uncertain and Stochastic Multi-agent Domains(共著)
Proc. of the 7th International Symposium on Artificial Life and Robotics   179-182   2002年
Comparison with Profit Sharing and Random Selection in POMDPs(共著)
Proc.of Joint 1st International Conference on Soft Computing and Intelligent Systems   24Q6-2(CD-ROM)    2002年
Reinforcement Learning for Penalty Avoiding Profit Sharing and its Application to the Soccer Game(共著)
Proc. of ICONIP'02-SEAL'02-FSKD'02   335-339   2002年
Educational Issues of Information Technology (IT) Engineers in Japan - Gap between Industrial Demand and University Supply ? (共著)
2002 ASEE/SEFI/TUB International Colloquium "Global Changes in EngineeringEducation",   Poster Presentation   2002年
Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game(共著)
Proc. of the 7th International Conference on Information System Analysis and Cynthesis   3 40-44   2001年
International Conference on Computational Intelligence and Multimedia Application 2001   123-127   2001年
Cranes Contral Using Multi-agent Profit Sharing
6th International Conference on Information Systems Analysis and Cynthesis   IX 178-183   2000年
Reinforcement Learning for Penalty Avoiding Policy Making(共著)
2000 IEEE International Conference on Systems, Man, and Cybernetics   206-211   2000年
木村元, 宮崎和光, 小林重信
計測と制御 = Journal of the Society of Instrument and Control Engineers   38(10) 618-623   1999年10月
Kazuteru Miyazaki,Shigenobu Kobayashi
Approaches to Intelligent Agents, Second Pacific Rim International Workshop on Multi-Agents, PRIMA '99, Kyoto, Japan, December 2-3, 1999, Proceedings   111-125   1999年   [査読有り]
Sachiyo Arai,Kazuteru Miyazaki,Shigenobu Kobayashi
The Fourth International Symposium on Autonomous Decentralized Systems, ISADS 1999, Tokyo, Japan, March 20-23, 1999   310-319   1999年   [査読有り]
Profit Sharingに基づく強化学習の理論と応用
宮崎和光,木村元,小林重信
人工知能学会誌   14(5) 800-807   1999年
Proposal for an Algorithm to Improve a Rational Policy in POMDPs(共著)
1999 IEEE International Conference on Systems, Man and Cybernetics   492-497   1999年
On the Rationality of Profit Sharing in Partially Observable Markov Decision Processes(共著)
5th International Conference on Information Systems Analysis and Cynthesis   190-197   1999年
Learning Deterministic Policies in Partially Observable Markov Decision Processes
Miyazaki, K., and Kobayashi, S.
International Conference on Intelligent Autonomous System 5   250-257   1998年
Cranes Control Using Multi-agent Reinforcement Leaning
Miyazaki, K., Arai, S., and Kobayashi, S.
International Conference on Intelligent Autonomous System 5   335-342   1998年
宮崎 和光, 小林 重信
人工知能学会誌   12(6) 811-821   1997年11月
増尾篤史, 宮崎和光, 小林重信
システム・情報合同シンポジウム講演論文集   1997 117-122   1997年11月
宮崎和光
日本ファジィ学会誌   9(4) 447-450   1997年8月
Hajime Kimura,Kazuteru Miyazaki,Shigenobu Kobayashi
Proceedings of the Fourteenth International Conference on Machine Learning (ICML 1997), Nashville, Tennessee, USA, July 8-12, 1997   152-160   1997年   [査読有り]
Generationg Cooperative Behavior by Multi-Agent Reinforcement Learning
Arai, S., Miyazaki, K., and Kobayashi, S.
Proc. of the 6th European Workshop on Learning Robots   143-157   1997年
Marcopolo : A Reinforcement Learning System considering tradeoff exploration and exploitation under Marcovian Environments(共著)
Proc. of 4th International Conference on Fuzzy Logic, Neural Nets and Soft Computing   561-564   1996年
山村 雅幸, 宮崎 和光, 小林 重信
人工知能学会誌   10(5) 683-689   1995年9月
山村 雅幸, 宮崎 和光, 小林 重信
システム/制御/情報 : システム制御情報学会誌 = Systems, control and information   39(4) 191-196   1995年4月
On the Rationarity of Profit Sharing in Reinforcement Learning (共著)
Proc. of 3rd International Conference on Fuzzy Logic, Neural Nets and Soft Computing   285-288   1994年

書籍等出版物

 
これからの強化学習
牧野 貴樹, 澁谷 長史, 白川 真一, 浅田 稔, 麻生 英樹, 荒井 幸代, 飯間 等, 伊藤 真, 大倉 和博, 黒江 康明, 杉本 徳和, 坪井 祐太, 銅谷 賢治, 前田 新一, 松井 藤五郎, 南 泰浩, 宮崎 和光, 目黒 豊美, 森村 哲郎, 森本 淳, 保田 俊行, 吉本 潤一郎
2016年10月   
新しい学士を目指して - 実践的学習のガイドブック -,
独立行政法人 大学評価・学位授与機構 学位審査研究部編 (担当:分担執筆, 範囲:第4章,第1節, Do you like Robots?, pp.94-104,第6章 実例:Profit Sharingに基づく強化学習システムのLEGOロボットへの応用, pp.158-172)
株式会社ぎょうせい   2008年   
On development of a course classification support system using syllabus data (共著)
Computational Engineering I   2004年   

講演・口頭発表等

 
非ブートストラップ手法を利用した深層強化学習アルゴリズムの提案
小玉直樹, 原田拓, 宮崎和光
第46回 知能システムシンポジウム   2019年3月   
経験強化型学習XoLに関する最近の発展
宮崎 和光
計測自動制御学会 システム・情報部門 学術講演会2018   2018年11月   
深層強化学習アルゴリズムRainbowとPro t Sharingベース学習の結合
小玉直樹, 原田拓, 宮崎和光
計測自動制御学会 システム・情報部門 学術講演会2018   2018年11月   
Character-level CNNを用いたディプロマ・ポリシーマッチングテスト
宮崎 和光, 高橋 望, 森 利枝
計測自動制御学会 システム・情報部門 学術講演会2018   2018年11月   
宮崎 和光, 井田 正明
(システム研究会 インテリジェント・システム (FAN2018))   2018年9月   
2つのエピソードを持つ経験強化型深層強化学習手法の提案
小玉直樹, 原田拓, 宮崎和光
平成30年 電気学会 電子・情報・システム部門大会   2018年9月   
将来成功・失敗期待確率を用いた報酬分配型強化学習に関する研究
水野大介, 小林博明, 宮崎和光
電気学会 システム研究会   2018年3月   
Character-level CNNを用いたテキスト分類に関する一考察
宮崎和光
電気学会 システム研究会   2018年3月   
経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証
Naoki Kodama, Kazuteru Miyazaki and Hiroaki Kobayashi
第45回 知能システムシンポジウム   2018年3月   
学習機能を利用したディプロマ・ポリシーマッチングテストの性能改善
Kazuteru Miyazaki, Nozomi Takahashi and Rie Mori
第45回 知能システムシンポジウム   2018年3月   
ディプロマ・ポリシーと学位に付記する専攻分野の名称の整合性に関する研究 - 深層学習による接近 -
宮崎和光, 森利枝, 高橋望
電気学会 システム研究会   2017年12月   
EFP利用による罰回避を実現したProfit Sharingの現状と課題
宮崎和光, 小玉直樹, 小林博明,
計測自動制御学会 システム・情報部門 学術講演会2017   2017年11月   
経験強化型学習を組み込んだ深層強化学習DQNwithPSの改良と有効性の検
小玉直樹, 宮崎和光, 小林博明
計測自動制御学会 システム・情報部門 学術講演会2017   2017年11月   
Profit Sharingにおける迂回系列抑制法のマルチエージェント環境下での有効性の検証
白石大介, 宮崎和光, 小林博明
計測自動制御学会 システム・情報部門 学術講演会2017   2017年11月   
予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証
小玉直樹, 宮崎和光, 小林博明
平成29年電気学会 電子・情報・システム部門大会   2017年9月   
深層学習と強化学習 - 経験強化型学習を組み込んだ深層強化学習の評価 - [招待有り]
宮崎和光
第61回システム制御情報学会研究発表講演会 (SCI’17),「機械学習の深化と進展」セッションにおける招待講演   2017年5月   
PS強化学習法における循環政策抑制法の提案とその有効性の検証
白石大介, 宮崎和光, 小林博明
第44回知能システムシンポジウム   2017年3月   
深層学習を組み込んだ経験強化型学習に関する実験的考察
宮崎 和光
電気学会研究会資料. ST 2016(42-53)   2016年12月   
経験強化型学習XoL -強化学習における試行錯誤回数の低減をめざして-(招待講演) [招待有り]
宮崎和光
第6回知能工学部会研究会「賢さの先端研究会」,第54 回システム工学部会研究会 機械学習の最先端研究- 理論および応用研究 -   2016年11月   
深層学習を組み込んだ経験強化型学習XoL:deep Q-networkとの比較
宮崎和光
電気学会研究会資料   2016年7月   
2報酬PS強化学習法の提案とその有効性の検証
小玉直樹、宮崎和光、小林博明
電気学会 研究会資料   2016年7月   
予想失敗確率を組み込んだ行動選択戦略の提案とマルチエージェント環境下での有効性の検証
古川耕大、宮崎和光、小林博明
電気学会研究会資料   2016年3月   
政策の多様性を重視した直接政策探索法の提案
徳久文彬,小野功,宮崎和光
計測自動制御学会 システム・情報部門 学術講演会 2015   2015年11月   
学位取得者に対するアンケート調査の分析
宮崎和光
電気学会研究会資料   2015年6月   
古川耕大, 宮崎和光, 小林博明
自律分散システム・シンポジウム(CD-ROM)   2015年1月22日   
宮崎和光
情報科学技術フォーラム講演論文集   2014年8月19日   
宮崎和光, 小林博明
電気学会システム研究会資料   2013年6月27日   
村岡宏紀, 宮崎和光, 小林博明
知能システムシンポジウム資料   2013年3月14日   
宮崎和光, 井田正明
自動制御連合講演会(CD-ROM)   2013年   
宮崎和光
電気学会電子・情報・システム部門大会講演論文集(CD-ROM)   2012年9月5日   
宮崎和光
知能システムシンポジウム資料   2012年3月15日   
伊藤大貴, 岡島勇也, 田中純夫, 小林博明, 宮崎和光
自動制御連合講演会(CD-ROM)   2011年11月19日   
本報告は腱駆動式2足歩行ロボットの腰軌道生成の強化学習の効率化を行う。腰軌道生成のように長期に渡る学習では、行動の不確実性のため報酬の獲得頻度が減収し、学習効率が悪化する。そこで、学習が充分進んだ状態を固定状態に移行することで学習が効率化されることが示されている。しかし、固定状態への移行条件に関するパラメータの評価法は確立されていない。そこで、新たな評価法としてマルチスタート法による評価法を提案し、シミュレーションによって学習パラメータの評価を行い、最適な値を決定する。
村岡宏紀, 宮崎和光, 小林博明
自動制御連合講演会(CD-ROM)   2011年11月19日   
本報告は罰と報酬を用いる強化学習において、新たに失敗確率の伝播法を提案しその有効性を確認する。学習の効率化を図るためには少ない試行数で罰ルールを発見し回避する事が有効である。そこで、失敗確率をルール上で伝播させる事によって、そのルールの将来失敗する確率を推定し、少ない試行数で罰ルールを発見する手法を提案し、迷路問題を用いたシミュレーションによってその有効性を示す。
宮崎和光, 井田正明
知能システムシンポジウム資料   2011年3月16日   
正例および負例の集合を考慮した科目分類支援システムの提案と経験強化型学習との融合
宮崎和光, 井田正明
第21回インテリジェント・システム・シンポジウム講演原稿集   2011年   
伊藤昌樹, 宮崎和光, 小林博明
自動制御連合講演会(CD-ROM)   2010年11月3日   
本研究では,著者らが提案する「改良型罰回避政策形成アルゴリズム」をマルチエージェント系の連続タスクである「Keepaway task」に適用し,シミュレーションにより最適な報酬割引率・罰ルール度閾値の選定を行う.その後,シミュレーションで最も学習効果の見られた報酬割引率・罰ルール度閾値を用いた実機実験を行うことで,実環境での学習性能を検証する。
宮崎和光
知能システムシンポジウム資料   2010年3月16日   
小林 諒平, 宮崎 和光, 小林 博明
日本機械学会関東支部総会講演会講演論文集   2010年3月9日   
Penalty Avoiding Rational Policy Making algorithm (PARP) based on Profit Sharing method and was planed to learn a penalty avoiding policy. PARP is improved to save memories and to cope with uncertainties. The efficiency of the Improved Penalty Avo...
宮崎和光, 芳鐘冬樹, 井田正明
知能システムシンポジウム資料   2009年3月   
小林諒平, 宮崎和光, 小林博明
自動制御連合講演会(CD-ROM)   2009年   
改良型罰回避政策形成アルゴリズムでは、閾値γを用いて罰基底の判定を行う。一般に、γは、学習結果に大きな影響を与えることが知られている。これまでは、予備的実験等を通じて、適切なγを事前に設定する必要があった。それに対し本研究では、マルチスタート法を活用し、γを学習する手法を提案する。提案手法を、サッカーの試合におけるパス回しをモデルにしたベンチマーク問題であるkeepawayタスクへ適用し、有効性を確認する。
井田正明, 宮崎和光
ファジィ・ワークショップ講演論文集   2008年3月7日   
龍崎雅人, 小林博明, 宮崎和光
自動制御連合講演会(CD-ROM)   2008年   
腱駆動機構は関節剛性を調節し、作業への適性を高めることができるが、関節剛性が作業ごとに異なることが問題である。そこで、関節剛性をフーリエ級数で近似し、報酬と罰を用いたProfit Sharingにより最適化する。フーリエ級数の高次項を用いて剛性調整パラメータを表すことで,定数の場合よりも誤差を小さくできる。また、報酬のみでなく罰も考慮し、罰を避けるように学習することで学習速度の向上を図り、実時間で利用しやすくする。
経験強化型学習PS-r#の提案
宮崎和光, 小林重信
第35回知能システムシンポジウム   2008年   
渡邊琢司, 宮崎和光, 小林博明
日本ロボット学会学術講演会予稿集(CD-ROM)   2007年9月13日   
野沢孝之, 渋井進, 芳鐘冬樹, 井田正明, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2007年3月6日   
井田正明, 野澤孝之, 宮崎和光, 芳鐘冬樹, 渋井進, 喜多一
情報処理学会全国大会講演論文集   2007年3月6日   
根橋 壮, 宮崎 和光, 高玉 圭樹
自律分散システム・シンポジウム資料 = SICE Symposium on Decentralized Autonomous Systems   2007年1月29日   
宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 渋井進, 喜多一
知能システムシンポジウム資料   2007年   
小島智瑞, 宮崎和光, 小林博明
日本ロボット学会学術講演会予稿集(CD-ROM)   2006年9月14日   
宮崎和光, 生田目琢哉, 小林博明
知能システムシンポジウム資料   2006年   
片上大輔, 新田克己, 宮崎和光
人工知能学会全国大会論文集(CD-ROM)   2006年   
生田目琢哉, 宮崎和光, 小林博明
自動制御連合講演会(CD-ROM)   2005年11月25日   
マルチエージェント環境下での自律分散型ロボットの協調行動の獲得のために強化学習を用いた研究がなされている。本研究ではサッカーゲームを題材とし、敵が存在する中でのエージェント間のパス行動を採り上げる。手法として強化学習法のひとつであるProfit Sharingを用いてシミュレーションを行い実際のロボットにパス行動獲得を実現することを目的とする。
井田正明, 野沢孝之, 芳鐘冬樹, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2005年3月2日   
芳鐘冬樹, 井田正明, 野沢孝之, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2005年3月2日   
井田正明, 芳鐘冬樹, 野沢孝之, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2005年3月2日   
宮崎 和光, 小林 重信
人工知能学会全国大会論文集   2005年   
宮崎和光, 小林重信
システム・情報部門学術講演会講演論文集   2005年   
新出尚之, 高田司郎, 山川宏, 宮崎和光, 太田正幸
人工知能学会全国大会論文集(CD-ROM)   2005年   
熟考型エージェントのアーキテクチャであるBDIアーキテクチャにおいて、プランの候補から実際に実行する行為を選択する過程に、強化学習による反射的選択の能力を取り入れれば、より柔軟な行動選択が可能になると考えられる。本稿では、その実装方法について考察する。
井田正明, 野沢孝之, 芳鐘冬樹, 宮崎和光, 喜多一
情報科学技術フォーラム   2004年8月20日   
宮崎 和光, 井田 正明, 芳鐘 冬樹, 野澤 孝之, 喜多 一
情報科学技術フォーラム一般講演論文集   2004年8月20日   
芳鐘冬樹, 井田正明, 宮崎和光, 野沢孝之, 喜多一
情報処理学会全国大会講演論文集   2004年3月9日   
野沢孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2004年3月9日   
井田正明, 芳鐘冬樹, 野沢孝之, 宮崎和光, 喜多一
情報処理学会全国大会講演論文集   2004年3月9日   
宮崎和光, 小林重信
システム・情報部門学術講演会講演論文集   2004年   
高田司郎, 山川宏, 宮崎和光, 新出尚之, 長行康男, 酒井隆道
人工知能学会全国大会論文集(CD-ROM)   2004年   
井田正明, 野沢孝之, 芳鐘冬樹, 宮崎和光, 喜多一
システム・情報部門学術講演会講演論文集   2004年   
井田正明, 芳鐘冬樹, 野沢孝之, 宮崎和光, 喜多一
システム制御情報学会研究発表講演会講演論文集   2004年   
シラバスデータからのクラスタリングに基づく教育コース分析システムの開発
65.野澤孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一
情報処理学会 第66回全国大会   2004年   
科目分類支援システムの改善とその応用
宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 喜多一
第3回 情報科学技術フォーラム   2004年   
宮崎和光, 井田正明, 芳鐘冬樹, 喜多一
情報科学技術フォーラム   2003年8月25日   
井田正明, 宮崎和光, 芳鐘冬樹, 喜多一
情報処理学会全国大会講演論文集   2003年3月25日   
宮崎和光, 小林重信
システム・情報部門学術講演会講演論文集   2002年   
寺田賢, 宮崎和光, 小林博明
自動制御連合講演会講演論文集   2002年   
宮崎和光, 斎藤淳平, 小林博明
自動制御連合講演会講演論文集   2002年   
情報通信(IT)関連人材育成に関する調査と検討:産業界と大学の需給マッチング問題
74.神谷武志, 宮崎和光, 小林信一
日本高等教育学会第5回大会   2002年   
都崎志保, 荒井幸代, 宮崎和光, 小林重信
知能システムシンポジウム資料   2001年   
情報通信(IT)関連人材育成の改革に関する調査について
神谷武志, 宮崎和光
日本高等教育学会第4回大会   2001年   
宮崎和光
日本機械学会機械力学・計測制御部門講演会論文集   2000年9月   
坪井創吾, 宮崎和光, 小林重信
知能システムシンポジウム資料   2000年3月23日   
宮崎和光, 石原秀一, 荒井幸代, 小林重信
自律分散システム・シンポジウム資料   1999年1月18日   
坪井創吾, 宮崎和光, 小林重信
知能システムシンポジウム資料   1998年3月19日   
宮崎和光, 小林重信
知能システムシンポジウム資料   1998年3月19日   
荒井幸代, 宮崎和光, 小林重信
システム制御情報学会研究発表講演会講演論文集   1998年   
強化学習によるエレベータ群およびクレーン群の制御
宮崎和光,荒井幸代,小林重信
離散事象システムシンポジウム資料   1998年   
坪井 創吾, 宮崎 和光, 小林 重信
知能システムシンポジウム資料   1997年3月18日   
宮崎和光, 小林重信
自律分散システム・シンポジウム資料   1997年1月16日   
木村元, 宮崎和光, 小林重信
自律分散システム・シンポジウム資料   1997年1月16日   
宮崎和光, 小林重信
システム・情報合同シンポジウム講演論文集   1996年10月   
山村雅幸, 宮崎和光, 小林重信
システム・情報合同シンポジウム講演論文集   1996年10月   
木村元, 宮崎和光, 小林重信
システム・情報合同シンポジウム講演論文集   1996年10月   
宮崎和光, 山村雅幸, 小林重信
自律分散システム・シンポジウム資料   1996年1月17日   
山村雅幸, 宮崎和光, 岩下健久, 小林重信
自律分散システム・シンポジウム資料   1995年1月   
小林重信, 山村雅幸, 宮崎和光
人工知能学会全国大会論文集   1994年6月20日   
宮崎和光, 山村雅幸, 小林重信
システムシンポジウム講演論文集   1993年   
宮崎和光, 山村雅幸, 小林重信
システムシンポジウム講演論文集   1992年   

担当経験のある科目

 
 

競争的資金等の研究課題

 
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2017年4月 - 2020年3月    代表者: 宮崎 和光
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2014年 - 2016年    代表者: 宮崎 和光
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2010年 - 2012年    代表者: 宮崎 和光
得られた経験を強く強化する機械学習手法である「経験強化型学習XoL」の発展として、「複数種類の報酬と罰を扱える手法」を完成させるとともに、応用の際に特に重要となる「報酬と罰の設計指針」の提示に成功した。具体的な応用例として、「科目の分類を支援する実システム」、「2足歩行ロボットの腰軌道学習」および「Keepawayタスクと呼ばれるサッカーを模したゲーム問題」への適用を行った。これらの成果により、伝統的な強化学習手法に対するXoLの優位性を強く主張できたと考える。
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2009年 - 2011年    代表者: 小林 博明
本研究では、様々な状況でどのように行動すればよいかを、罰と報酬を用いてロボット自身に学習させる手法を検討し、それをロボットサッカーゲームでの行動学習と2足歩行ロボットの歩行機能の学習に適用した。その際、実際のロボットに適用できるように、罰を与える基準の決定法、十分学習の進んだ状態は固定状態(一定の行動戦略を使用する状態)とするなど、学習の効率化を図った。また、人間と同様にモータ(筋肉)とワイヤー(腱)で駆動される2足歩行ロボットの機構と制御について研究した。2足歩行ロボットの腱には約400...
文部科学省: 科学研究費補助金(基盤研究(B))
研究期間: 2007年 - 2009年    代表者: 橋本 弘信, 瀧田 佳子
2005年5月の中央教育審議会答申『新時代の大学院教育―国際的に魅力ある大学院教育の構築』から3~5年たった今,実際の大学院教育はどのように変化したか,改革を推進中であるかを明らかにするために,全国の理工学系の大学院修士課程教育の実態をアンケート調査により把握し、その分析を行った(101大学の理工学系研究科・学府等921専攻に調査を依頼し,684専攻から有効回答).その結果,研究者等養成のみならず,高度専門職業人養成のためにも,「新知識体系の創造および基礎的資質の修得」に貢献する従来からの...

大学改革支援・学位授与機構における活動

 
事業連携活動報告
大学情報連携事業ユニットに所属し、大学ポートレートセンター会議構成員として、大学ポートレートに関する議論に参画するとともに、情報化委員会委員として,機構内の情報化に関する議論に参画した。
学位授与事業連携ユニットに所属し、学位授与事業に関連する各種業務に従事し,その円滑なる遂行を支援した。学位授与事業連絡会議および同ワーキンググループ構成員として、学位授与事業に関する議論に参画した。アンケートワーキンググループ構成員として、学位取得者に対する直後調査の推進を図った。
調査研究活動報告
大学質保証研究および大学情報研究ユニットに所属し、これらのユニットで実施した「3ポリシーの整合性と学位の付記名称の関係に関する研究」および「高等教育の質保証に係る情報の活用に関する研究」において、教育研究上の3つの方針に関するテキスト分析に関する研究を行った。
さらに、科学研究費基盤研究C「経験強化型学習と深層学習を組み合わせた新たな機械学習手法の構築に関する研究」の研究代表者として、強化学習、深層学習、テキストマイニング等に関する研究を行った。本研究課題で得られた知見は、テキスト分析など、当機構における調査研究ユニットの研究と強い相関があり、両者を連携させ研究を推進した。