Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル

2025.12.14 19:13

Zenn.dev

概要 JiT (Just image Transformer) は VAE を使わず、ピクセル空間上で flow-matching を行うモデルは速度 (velocity) v を予測するよりも実画像 x を予測した方が性能が良い (x-pred) ただしロスは、実画像 x とノイズ画像 z から作れる速度 v でロスを計算すると良い (v-loss) はじめに拡散による画像生成モデルは ...

記事全文へ

検索

人気記事

Claude、OpenClawなどサードパーティツールでの無料利用を停止

2026.04.06 0:00

Googleドライブ、AIによるランサムウェア検出と復元機能が正式版に。ランサムウェア検知能力が14倍向上と

2026.04.05 23:05

MicrosoftはCopilotを「娯楽目的のもので、重要な助言では頼らないこと」と警告している

2026.04.05 23:55

労働力としてのAIは期待倒れ、ビッグになるのは成人向けビジネスだ

2026.04.06 7:00

AI時代の大学教員は、何を教える人になるのか｜tarolabo

2026.04.05 20:34

コメント一覧

まだコメントはありません。

コメント