Large Language Diffusion Models を理解する
2025.06.05 19:03
Github.io
TL;DR Gemini Diffusion で話題になったので discrete text diffusion model である LLaDA の論文を読んだ continuous との対比では noise が MASK になり、MASK は離散処理なので予測後に remask をして再度予測をすることで良いトークン列を生成していくモデルになっている autoregressive モデルが抱える課題を解決し...