論文

最終著者
2015年3月23日

画像分解による『殷墟卜辭綜類』掲出字頻度分析

情報処理学会研究報告
  • 鈴木俊哉、鈴木 敦、菅谷克行

DD-97-5
5
開始ページ
1
終了ページ
6
記述言語
日本語
掲載種別
研究論文(研究会,シンポジウム資料等)
出版者・発行元
一般社団法人情報処理学会

甲骨文字のデジタル化において,文字符号化して問題ないか,あるいは画像として扱うべきかは,拓本資料の鮮明さや掲出例数を考慮して判断しなければならない.我々は印刷物として公表されたデータベースである 『殷墟卜辭綜類』 と 『殷墟甲骨刻辭類纂』 に基づいた検討をすすめているが,全て手書き資料であり,また,そこに模写された文字の集合も明確ではないため,文字認識的な手法をとることができない.本研究では,掲出例数を概算するため,両書に共通するレイアウト構造をもとに模写テキストを画像分解する方法を検討した.両書の画像分解精度が大きく異なる結果が得られたが,この原因は両書の編集・出版方針の違いによると推測される.また,本研究の手法の適用範囲についても報告する.In the digitization of the Oracle Bone materials, the criteria to digitize as "coded text" or as an image should be decided with the consideration about the legibility of the source materials and the "glyphs" on the materials are sufficiently popular to interchange with the stable identity. For the character encoding in ISO/IEC 10646, once Japanese experts proposed to select the representative glyphs by the frequency of the contexts listed in the corpuses, like "殷墟卜辭類纂" or "殷墟甲骨刻辭類纂". In this report, we estimated the frequency by automatic image decomposition method. The representative glyphs with the frequencies with the examples more than 10 are estimated about 850. This is further smaller than the estimation by the cross section of 2 corpuses.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110009885517
CiNii Books
http://ci.nii.ac.jp/ncid/AN10114171
URL
http://id.nii.ac.jp/1001/00141490/
ID情報
  • CiNii Articles ID : 110009885517
  • CiNii Books ID : AN10114171

エクスポート
BibTeX RIS