共同研究・競争的資金等の研究課題

2018年4月 - 2021年3月

表現学習による語彙的変異の通言語的研究

日本学術振興会  科学研究費助成事業 基盤研究(C)  基盤研究(C)

課題番号
18K11456
体系的課題番号
JP18K11456
担当区分
研究分担者
配分額
(総額)
4,290,000円
(直接経費)
3,300,000円
(間接経費)
990,000円

2018年度中は、利用する言語リソースの構築や、データ準備、および関連分野の調査を行った。
言語リソースの一つは同源語リストである。現時点では、ポーランド語、英語、ドイツ語、スペイン語、フランス語、イタリア語、チェコ語、ウクライナ語、ロシア語について収集した。既存のリストもあるが、単語の定義に問題があり、あらためて作成した。
また、Wikipediaのデータを用いた単語分散表現の獲得を行った。Wikipediaのdumpデータから、テキスト部分を抽出し、トークナイゼーションを施し、分散表現獲得ツールであるword2vecを用いて分散表現を計算した。まずはフランス語とポーランド語についてこれを行った。
平行して、MUSEと呼ばれる多言語単語分散表現を用いて、同源語間の近さを算出した。この結果について、現在分析中である。ただし、MUSEについては、いくつかの言語についてトークナイゼーションに問題がある可能性があり、問題がある場合は、上で述べたWikipediaから作成した分散表現を使用する予定である。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-18K11456
ID情報
  • 課題番号 : 18K11456
  • 体系的課題番号 : JP18K11456

この研究課題の成果一覧

受賞

  2

論文

  3

講演・口頭発表等

  3