マイクロソフトと清華大学が大規模言語モデル向けのDIFF Transformerを発表
2024.12.09 13:31
InfoQ.com
マイクロソフトAI と清華大学の研究者が、Differential Transformer (DIFF Transformer) という大規模言語モデルの性能向上を目的とした新しいアーキテクチャを発表した。同モデルでは、モデルによるコンテキスト処理の微調整や無関係な情報によるハルシネーションを最小限化することで、アテンション・メカニズムが向上している。 By Daniel Dominguez Translated by Takashi Kawase
検索
人気記事
コメント一覧
まだコメントはありません。