2006年 - 2010年
多様な目的に適した形態素解析システム用電子化辞書の開発
日本学術振興会 科学研究費助成事業 特定領域研究 特定領域研究
- 課題番号
- 18061002
- 体系的課題番号
- JP18061002
- 担当区分
- 連携研究者
- 配分額
-
- (総額)
- 91,900,000円
- (直接経費)
- 91,900,000円
- (間接経費)
- 0円
- 資金種別
- 競争的資金
(1) 以下の特徴を持つ形態素解析辞書UniDicを設計・開発した。 ・ 「短単位」という揺れがない斉一な単位で設計 ・ 語彙素・語形・書字形・発音形の階層構造を持ち、表記の揺れや語形の変異にかかわらず同一の見出しを与えることが可能 ・ アクセントや音変化の情報を付与でき、テキスト音声合成などに利用可能
(2) 辞書データベースを構築しながら、形態素解析システム MeCab 用辞書を随時公開し、最終的に語彙素約 21 万語・書字形約 33 万語の規模と、品詞認定約 98.9%・語彙素認定約 98.6%の解析精度を達成した。
(3) さらに、辞書データベースを XML ファイル群として記述し、ユーザがカスタマイズ可能な辞書作成環境を提供する新しい方式で UniDic2 を設計・開発した。
(4) 中・長単位解析システムを含む、形態素解析の後処理ツール群を作成し、多様な目的に供した。
(2) 辞書データベースを構築しながら、形態素解析システム MeCab 用辞書を随時公開し、最終的に語彙素約 21 万語・書字形約 33 万語の規模と、品詞認定約 98.9%・語彙素認定約 98.6%の解析精度を達成した。
(3) さらに、辞書データベースを XML ファイル群として記述し、ユーザがカスタマイズ可能な辞書作成環境を提供する新しい方式で UniDic2 を設計・開発した。
(4) 中・長単位解析システムを含む、形態素解析の後処理ツール群を作成し、多様な目的に供した。
- リンク情報
- ID情報
-
- 課題番号 : 18061002
- 体系的課題番号 : JP18061002