これは面白い! Whisper EncoderとLlama3.2を2層MLPで繋いだだけでもちゃんと音声認識から直接LLMの回答を出力できる|shi3z

2025.07.08 16:16
Note.com

Twitterのタイムラインを見ていたら、面白そうなリポジトリが流れてきた。 スライドもよくまとまっていて面白いのだが、僕が特に面白いと思ったのは、このリポジトリにあるdemo2.ipynbの内容。 簡単にいうと、音声をWhisperのEncoderに入力した後、それをわずか2層のMLP(adapterと呼ばれている)を介してLlamaに入力し、わずか1エポックだけMLPを学習すると、ちゃんと音声から直接回答が得られるようになるということ。インストラクション(指示)は別途テキストで入力している。 Ko…

検索

人気記事

2026.04.04 0:18
2026.04.04 2:09
2026.04.04 0:56
2026.04.03 23:32
2026.04.03 23:00

コメント一覧

まだコメントはありません。

コメント