2020年4月 - 2023年3月
近代書籍からの知の再構築
日本学術振興会 科学研究費助成事業 基盤研究(B) 基盤研究(B)
近代書籍文字認識において、透視変換を用いたデータ拡張ならびにStyleGANを用いたデータ拡張を提案し、特にStyleGANを用いた手法が有効であることを示した。これらの手法に関しては、情報処理学会の研究会で発表を行っている。また、未知フォントを生成するfG-NNとfG-GANという2手法を提案し、未知フォントを生成できることを示した。この結果は情報処理学会論文誌に採録されている。さらに低出現頻度文字のクローラを実稼働させ、数日で約2千種の低出現頻度文字のクローリングを行った。この結果は担当した学生の修士論文で報告している。
近代文語体と現代口語体の自動翻訳では、学習データとして約4万対の文を整備した。これはスタンフォード大学フーバー研究所がアーカイブ化を進めている邦字新聞の翻訳と文字起こしをベースに行っている。翻訳に関しては本学文学部の学生にバイトとして担当してもらっており、質の良い翻訳文が可能となった。
また、対訳データのない状態から学習を行う手法では、分野を合わせることで無秩序に選んだコーパスよりよい性能が出ることが判明した。この結果は情報処理学会の研究会で発表を行っている。
レイアウト解析ではCRAFTを用いたものが有望であることを情報処理学科研究会で報告したが、本文の抽出を優先すると見出し文字部分の抽出ができないという問題が判明した。逆に見出し部分に焦点を当てると本文を抽出できない。この理由は我々の有する計算資源が貧弱であることだが、これを回避する手法が期待される。
近代文語体と現代口語体の自動翻訳では、学習データとして約4万対の文を整備した。これはスタンフォード大学フーバー研究所がアーカイブ化を進めている邦字新聞の翻訳と文字起こしをベースに行っている。翻訳に関しては本学文学部の学生にバイトとして担当してもらっており、質の良い翻訳文が可能となった。
また、対訳データのない状態から学習を行う手法では、分野を合わせることで無秩序に選んだコーパスよりよい性能が出ることが判明した。この結果は情報処理学会の研究会で発表を行っている。
レイアウト解析ではCRAFTを用いたものが有望であることを情報処理学科研究会で報告したが、本文の抽出を優先すると見出し文字部分の抽出ができないという問題が判明した。逆に見出し部分に焦点を当てると本文を抽出できない。この理由は我々の有する計算資源が貧弱であることだが、これを回避する手法が期待される。
- ID情報
-
- 課題番号 : 20H04483
- 体系的課題番号 : JP20H04483
この研究課題の成果一覧
絞り込み
論文
7-
Advances in Parallel & Distributed Processing, and Applications 2052年 査読有り責任著者
-
Advances in Parallel & Distributed Processing, and Applications 2051年 査読有り責任著者
-
情報処理学会論文誌数理モデル化と応用 2023年 査読有り責任著者
-
The 2022 International Conference on Parallel and Distributed Processing Techniques and Applications 2022年 査読有り責任著者
-
The 2022 International Conference on Parallel and Distributed Processing Techniques and Applications 2022年 査読有り責任著者
-
情報処理学会論文誌数理モデル化と応用 15(3) 71-89 2022年 査読有り責任著者
-
The 2020 International Conference on Parallel and Distributed Processing Techniques and Applications 683-695 2021年 査読有り最終著者
MISC
1-
研究報告数理モデル化と問題解決(MPS) 2023-MPS-142(28) 1-6 2023年3月2日 責任著者
講演・口頭発表等
3-
研究報告数理モデル化と問題解決(MPS) 2023年3月10日
-
International Conference on Parallel and Distributed Processing Techniques and Applications 2022年7月25日
-
International Conference on Parallel and Distributed Processing Techniques and Applications 2022年7月25日