Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる - NTT docomo Business Engineers' Blog

2025.07.14 10:24
Ntt.com

イノベーションセンターの加藤です。この記事ではWhisperによる音声認識の前処理と後処理にLLMとOCRを組み込むことで、映像の文字起こし精度の向上を図った際の検証結果を紹介します。 Whisperとは OCRの結果を盛り込み専門用語を認識させる 大規模言語モデルで全体の文章を調整する 各アプローチの融合 結果の考察 まとめ Whisperとは Whisper1はOpenAIによって提供されているオープンソースの音声認識モデルです。 色々なサイズのモデルが提供されており、最も大きいモデルであるlarge-v3は…

検索

人気記事

2025.08.18 10:00
2025.08.18 7:32
2025.08.18 7:00
2025.07.14 11:00
2025.08.18 5:40

コメント一覧

まだコメントはありません。

コメント