一文通透MoE大模型:从首个开源MoE Mixtral 8x7B到决定DeepDeek架构的DeepSeekMoE
2025.01.31 19:18
Csdn.net
文章浏览阅读345次,点赞6次,收藏4次。本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。