Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル
2025.12.14 19:13
Zenn.dev
概要 JiT (Just image Transformer) は VAE を使わず、ピクセル空間上で flow-matching を行う モデルは速度 (velocity) v を予測するよりも実画像 x を予測した方が性能が良い (x-pred) ただしロスは、実画像 x とノイズ画像 z から作れる速度 v でロスを計算すると良い (v-loss) はじめに 拡散による画像生成モデルは ...