2021年4月 - 2024年3月
オンライン講義の学びを活性化するソーシャルアノテーションに基づく講義要約システム
日本学術振興会 科学研究費助成事業 若手研究 若手研究
本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション(投稿コメントや「いいね」など)と、講師の作成した講義コンテンツ(講義スライドやレジュメなど)を学習データに活用することで、講義音声の音声認識(自動書き起こし)と自動要約(重要な部分の自動抽出)を高精度化することを目指している。2021年度は、以下の研究内容を実施した。
【内容1】講義音声のような話し言葉を対象とする音声認識では、フィラー(「えっと」「あのー」といった、場繋ぎ的に発声される間投詞)や言い淀みをはじめとする非流暢的音響特徴が誤認識の主要な原因の一つになっている。こうした話し言葉特有の問題をEnd-to-End型の音声認識で考慮するために、非流暢ラベルを用いる手法を提案した。具体的には、音声認識モデルの学習に用いる書き起こしデータのうち、フィラーや言い淀みに対応する箇所をそれぞれ単一のシンボルに置き換えた上で、文字単位の音声認識モデルを Joint CTC-Attention Transformer で構築した。これにより、非流暢な入力音声に対し、言い淀みを整形した認識結果を得ることができる。
【内容2】講義音声のような専門性の高い発話内容を含む音声を対象とする音声認識では、認識対象の話題(ターゲットドメイン)に関連した専門用語などを高精度に認識するために、ターゲットドメインの学習データと、一般的なドメインの大規模な学習データをそれぞれ効果的に利用することが重要となる。このようなデータを併用する方法として、ターゲットドメインのデータから学習した言語モデルを音声認識モデルと統合する Shallow Fusion などが提案されてきたが、効果は限定的であった。そこで、Shallow Fusion を確率的に改善した Density Ratio Approach の考え方を応用した手法を提案した。
【内容1】講義音声のような話し言葉を対象とする音声認識では、フィラー(「えっと」「あのー」といった、場繋ぎ的に発声される間投詞)や言い淀みをはじめとする非流暢的音響特徴が誤認識の主要な原因の一つになっている。こうした話し言葉特有の問題をEnd-to-End型の音声認識で考慮するために、非流暢ラベルを用いる手法を提案した。具体的には、音声認識モデルの学習に用いる書き起こしデータのうち、フィラーや言い淀みに対応する箇所をそれぞれ単一のシンボルに置き換えた上で、文字単位の音声認識モデルを Joint CTC-Attention Transformer で構築した。これにより、非流暢な入力音声に対し、言い淀みを整形した認識結果を得ることができる。
【内容2】講義音声のような専門性の高い発話内容を含む音声を対象とする音声認識では、認識対象の話題(ターゲットドメイン)に関連した専門用語などを高精度に認識するために、ターゲットドメインの学習データと、一般的なドメインの大規模な学習データをそれぞれ効果的に利用することが重要となる。このようなデータを併用する方法として、ターゲットドメインのデータから学習した言語モデルを音声認識モデルと統合する Shallow Fusion などが提案されてきたが、効果は限定的であった。そこで、Shallow Fusion を確率的に改善した Density Ratio Approach の考え方を応用した手法を提案した。
- ID情報
-
- 課題番号 : 21K13641
- 体系的課題番号 : JP21K13641