DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM
2025.01.28 14:31
InfoQ.com
DeepSeekは671Bパラメータを含むMixture of Experts (MoE) LLM、DeepSeek-V3をオープンソース化した。2.788M GPU時間を使って14.8Tトークンで事前学習され、MMLU、MMLU-Pro、GPQAを含む様々なLLMベンチマークで他のオープンソースモデルを上回る性能を示している。 By Anthony Alford Translated by Hiroaki.Sugimura
検索
人気記事
コメント一覧
まだコメントはありません。