2018年4月 - 2021年3月
表現学習による語彙的変異の通言語的研究
日本学術振興会 科学研究費助成事業 基盤研究(C) 基盤研究(C)
2018年度中は、利用する言語リソースの構築や、データ準備、および関連分野の調査を行った。
言語リソースの一つは同源語リストである。現時点では、ポーランド語、英語、ドイツ語、スペイン語、フランス語、イタリア語、チェコ語、ウクライナ語、ロシア語について収集した。既存のリストもあるが、単語の定義に問題があり、あらためて作成した。
また、Wikipediaのデータを用いた単語分散表現の獲得を行った。Wikipediaのdumpデータから、テキスト部分を抽出し、トークナイゼーションを施し、分散表現獲得ツールであるword2vecを用いて分散表現を計算した。まずはフランス語とポーランド語についてこれを行った。
平行して、MUSEと呼ばれる多言語単語分散表現を用いて、同源語間の近さを算出した。この結果について、現在分析中である。ただし、MUSEについては、いくつかの言語についてトークナイゼーションに問題がある可能性があり、問題がある場合は、上で述べたWikipediaから作成した分散表現を使用する予定である。
言語リソースの一つは同源語リストである。現時点では、ポーランド語、英語、ドイツ語、スペイン語、フランス語、イタリア語、チェコ語、ウクライナ語、ロシア語について収集した。既存のリストもあるが、単語の定義に問題があり、あらためて作成した。
また、Wikipediaのデータを用いた単語分散表現の獲得を行った。Wikipediaのdumpデータから、テキスト部分を抽出し、トークナイゼーションを施し、分散表現獲得ツールであるword2vecを用いて分散表現を計算した。まずはフランス語とポーランド語についてこれを行った。
平行して、MUSEと呼ばれる多言語単語分散表現を用いて、同源語間の近さを算出した。この結果について、現在分析中である。ただし、MUSEについては、いくつかの言語についてトークナイゼーションに問題がある可能性があり、問題がある場合は、上で述べたWikipediaから作成した分散表現を使用する予定である。
- ID情報
-
- 課題番号 : 18K11456
- 体系的課題番号 : JP18K11456
この研究課題の成果一覧
絞り込み
受賞
2論文
3-
Proceedings of the 29th International Conference on Computational Linguistics 141-151 2022年10月 査読有り筆頭著者責任著者
-
言語処理学会 第28回年次大会 発表論文集 1861-1866 2022年3月 筆頭著者責任著者
-
言語処理学会 第28回年次大会 発表論文集 240-245 2022年3月
講演・口頭発表等
3-
日本英語学会 第41回大会シンポジウム 2023年11月4日 日本英語学会 招待有り
-
英語コーパス学会 第49回大会(30周年記念大会) 2023年9月9日 英語コーパス学会 招待有り
-
「現代語の意味の変化に対する計算的・統計力学的アプローチ」シンポジウム 2022年3月9日 招待有り