DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM

2025.01.28 14:31
InfoQ.com

DeepSeekは671Bパラメータを含むMixture of Experts (MoE) LLM、DeepSeek-V3をオープンソース化した。2.788M GPU時間を使って14.8Tトークンで事前学習され、MMLU、MMLU-Pro、GPQAを含む様々なLLMベンチマークで他のオープンソースモデルを上回る性能を示している。 By Anthony Alford Translated by Hiroaki.Sugimura

検索

人気記事

2025.12.03 11:26
2025.12.03 6:24
2025.12.03 6:03
2025.12.02 7:46
2025.12.03 5:20

コメント一覧

まだコメントはありません。

コメント