2021年4月 - 2025年3月
Speech-to-Lecture: 教育エージェントによる学習教材の自動生成
日本学術振興会 科学研究費助成事業 基盤研究(C) 基盤研究(C)
本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータド リブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。そのために、初年度はデータセットの整備を行うことを予定していた。
高精度なモーションキャプチャ設備を利用した従来のデータ収録では大規模なデータセットを作成することが難しいため、既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する。本研究ではまずレクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。
そこで、収集対象とするレクチャー動画像を画角変化の少ないものに限定した。収集された動画像の多くはYouTube上にアップロードされている高校生を対象とした講義映像となった。これらの動画像に対して、今後2次元姿勢データの抽出を行い、これをデータセットとして今後のジェスチャ推定を行うこととした。
高精度なモーションキャプチャ設備を利用した従来のデータ収録では大規模なデータセットを作成することが難しいため、既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する。本研究ではまずレクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。
そこで、収集対象とするレクチャー動画像を画角変化の少ないものに限定した。収集された動画像の多くはYouTube上にアップロードされている高校生を対象とした講義映像となった。これらの動画像に対して、今後2次元姿勢データの抽出を行い、これをデータセットとして今後のジェスチャ推定を行うこととした。
- ID情報
-
- 課題番号 : 21K12160
- 体系的課題番号 : JP21K12160