これは面白い! Whisper EncoderとLlama3.2を2層MLPで繋いだだけでもちゃんと音声認識から直接LLMの回答を出力できる|shi3z

2025.07.08 16:16
Note.com

Twitterのタイムラインを見ていたら、面白そうなリポジトリが流れてきた。 スライドもよくまとまっていて面白いのだが、僕が特に面白いと思ったのは、このリポジトリにあるdemo2.ipynbの内容。 簡単にいうと、音声をWhisperのEncoderに入力した後、それをわずか2層のMLP(adapterと呼ばれている)を介してLlamaに入力し、わずか1エポックだけMLPを学習すると、ちゃんと音声から直接回答が得られるようになるということ。インストラクション(指示)は別途テキストで入力している。 Ko…

検索

人気記事

2025.05.28 9:00
2025.08.17 13:58
2025.08.02 14:37
2025.08.15 7:05
2025.06.06 15:17

コメント一覧

まだコメントはありません。

コメント