共同研究・競争的資金等の研究課題

2020年4月 - 2023年3月

近代書籍からの知の再構築

日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

課題番号
20H04483
体系的課題番号
JP20H04483
配分額
(総額)
17,680,000円
(直接経費)
13,600,000円
(間接経費)
4,080,000円

近代書籍文字認識において、透視変換を用いたデータ拡張ならびにStyleGANを用いたデータ拡張を提案し、特にStyleGANを用いた手法が有効であることを示した。これらの手法に関しては、情報処理学会の研究会で発表を行っている。また、未知フォントを生成するfG-NNとfG-GANという2手法を提案し、未知フォントを生成できることを示した。この結果は情報処理学会論文誌に採録されている。さらに低出現頻度文字のクローラを実稼働させ、数日で約2千種の低出現頻度文字のクローリングを行った。この結果は担当した学生の修士論文で報告している。
近代文語体と現代口語体の自動翻訳では、学習データとして約4万対の文を整備した。これはスタンフォード大学フーバー研究所がアーカイブ化を進めている邦字新聞の翻訳と文字起こしをベースに行っている。翻訳に関しては本学文学部の学生にバイトとして担当してもらっており、質の良い翻訳文が可能となった。
また、対訳データのない状態から学習を行う手法では、分野を合わせることで無秩序に選んだコーパスよりよい性能が出ることが判明した。この結果は情報処理学会の研究会で発表を行っている。
レイアウト解析ではCRAFTを用いたものが有望であることを情報処理学科研究会で報告したが、本文の抽出を優先すると見出し文字部分の抽出ができないという問題が判明した。逆に見出し部分に焦点を当てると本文を抽出できない。この理由は我々の有する計算資源が貧弱であることだが、これを回避する手法が期待される。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20H04483
ID情報
  • 課題番号 : 20H04483
  • 体系的課題番号 : JP20H04483

この研究課題の成果一覧

論文

  7

MISC

  1

講演・口頭発表等

  3