2014年 - 2016年
言語横断専門情報質問応答システムの研究
文部科学省 科学研究費補助金(基盤研究(C)) 基盤研究(C)
- 課題番号
- 26330366
- 体系的課題番号
- JP26330366
- 担当区分
- 研究代表者
- 配分額
-
- (総額)
- 1,950,000円
- (直接経費)
- 1,500,000円
- (間接経費)
- 450,000円
- 資金種別
- 競争的資金
本研究では、英語の論文を解析して、研究者の日本語の質問に答える「言語横断専門情報質問応答システム(論文QA)」を実現することを目的としている。このシステムは、専門分野を限定するつもりはないが、システムの出力が開発者自身にわかりにくいことを避けるため、開発者自身のよく知っている専門分野である自然言語処理分野を当面対象とし、研究者の良き相談相手となることを目指した。
英語や日本語などの「自然言語」を上手に解析する技術の中には、様々な応用に利用できる特に重要な課題がある。例えば、文章の中に含まれる固有名詞を検出して分類する「固有表現抽出」という課題がある。そして、この課題には、正解がわかっている「標準データ」が存在する。「固有表現抽出」の場合は、人間が正しい固有名詞の範囲を見つけて、それが人名か、地名か、組織名か、などと正しく分類した「正解データ」を作る。
そのような重要な課題を選定し、「標準データ」と「正解データ」を作っておくこことで、最先端のツールと自分の使っているツールがどの程度かけはなれているのか、あるいは、自分が新たに作成したツールがどの程度のレベルなのかを客観的に把握するためにこのシステムは大変重要となってくる。
本研究では、この「標準データ」を考慮して、論文中から最高精度を検出するモジュールなどを作成し、論文QAシステムの改良が進み、より多くの質問に正解することができるようになった。しかし、私の一身上の都合により事業継続が困難となったため、やむなく事業廃止の申請を行い承認を受けた。
英語や日本語などの「自然言語」を上手に解析する技術の中には、様々な応用に利用できる特に重要な課題がある。例えば、文章の中に含まれる固有名詞を検出して分類する「固有表現抽出」という課題がある。そして、この課題には、正解がわかっている「標準データ」が存在する。「固有表現抽出」の場合は、人間が正しい固有名詞の範囲を見つけて、それが人名か、地名か、組織名か、などと正しく分類した「正解データ」を作る。
そのような重要な課題を選定し、「標準データ」と「正解データ」を作っておくこことで、最先端のツールと自分の使っているツールがどの程度かけはなれているのか、あるいは、自分が新たに作成したツールがどの程度のレベルなのかを客観的に把握するためにこのシステムは大変重要となってくる。
本研究では、この「標準データ」を考慮して、論文中から最高精度を検出するモジュールなどを作成し、論文QAシステムの改良が進み、より多くの質問に正解することができるようになった。しかし、私の一身上の都合により事業継続が困難となったため、やむなく事業廃止の申請を行い承認を受けた。
- リンク情報
- ID情報
-
- 課題番号 : 26330366
- 体系的課題番号 : JP26330366