DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM

2025.01.28 14:31
InfoQ.com

DeepSeekは671Bパラメータを含むMixture of Experts (MoE) LLM、DeepSeek-V3をオープンソース化した。2.788M GPU時間を使って14.8Tトークンで事前学習され、MMLU、MMLU-Pro、GPQAを含む様々なLLMベンチマークで他のオープンソースモデルを上回る性能を示している。 By Anthony Alford Translated by Hiroaki.Sugimura

検索

人気記事

2026.05.10 21:00
2026.05.10 16:30
2026.05.10 20:55
2026.05.10 21:00
2026.05.10 16:00

コメント一覧

まだコメントはありません。

コメント