共同研究・競争的資金等の研究課題

2006年 - 2010年

多様な目的に適した形態素解析システム用電子化辞書の開発

日本学術振興会  科学研究費助成事業 特定領域研究  特定領域研究

課題番号
18061002
体系的課題番号
JP18061002
担当区分
連携研究者
配分額
(総額)
91,900,000円
(直接経費)
91,900,000円
(間接経費)
0円
資金種別
競争的資金

(1) 以下の特徴を持つ形態素解析辞書UniDicを設計・開発した。 ・ 「短単位」という揺れがない斉一な単位で設計 ・ 語彙素・語形・書字形・発音形の階層構造を持ち、表記の揺れや語形の変異にかかわらず同一の見出しを与えることが可能 ・ アクセントや音変化の情報を付与でき、テキスト音声合成などに利用可能
(2) 辞書データベースを構築しながら、形態素解析システム MeCab 用辞書を随時公開し、最終的に語彙素約 21 万語・書字形約 33 万語の規模と、品詞認定約 98.9%・語彙素認定約 98.6%の解析精度を達成した。
(3) さらに、辞書データベースを XML ファイル群として記述し、ユーザがカスタマイズ可能な辞書作成環境を提供する新しい方式で UniDic2 を設計・開発した。
(4) 中・長単位解析システムを含む、形態素解析の後処理ツール群を作成し、多様な目的に供した。

リンク情報
Kaken Url
https://kaken.nii.ac.jp/file/KAKENHI-PLANNED-18061002/18061002hyoka.pdf
Kaken Url
https://kaken.nii.ac.jp/file/KAKENHI-PLANNED-18061002/18061002seika.pdf
URL
https://kaken.nii.ac.jp/p/18061002
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PLANNED-18061002
ID情報
  • 課題番号 : 18061002
  • 体系的課題番号 : JP18061002