Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル

2025.12.14 19:13
Zenn.dev

概要 JiT (Just image Transformer) は VAE を使わず、ピクセル空間上で flow-matching を行う モデルは速度 (velocity) v を予測するよりも実画像 x を予測した方が性能が良い (x-pred) ただしロスは、実画像 x とノイズ画像 z から作れる速度 v でロスを計算すると良い (v-loss) はじめに 拡散による画像生成モデルは ...

検索

人気記事

2026.04.06 0:00
2026.04.05 23:05
2026.04.05 23:55
2026.04.06 7:00
2026.04.05 20:34

コメント一覧

まだコメントはありません。

コメント