これは面白い! Whisper EncoderとLlama3.2を2層MLPで繋いだだけでもちゃんと音声認識から直接LLMの回答を出力できる|shi3z

2025.07.08 16:16
Note.com

Twitterのタイムラインを見ていたら、面白そうなリポジトリが流れてきた。 スライドもよくまとまっていて面白いのだが、僕が特に面白いと思ったのは、このリポジトリにあるdemo2.ipynbの内容。 簡単にいうと、音声をWhisperのEncoderに入力した後、それをわずか2層のMLP(adapterと呼ばれている)を介してLlamaに入力し、わずか1エポックだけMLPを学習すると、ちゃんと音声から直接回答が得られるようになるということ。インストラクション(指示)は別途テキストで入力している。 Ko…

検索

人気記事

2026.05.05 11:04
2026.06.21 23:17
2026.06.21 23:12
2026.06.21 23:30
2026.06.22 1:52

コメント一覧

まだコメントはありません。

コメント