梁文锋谈DeepSeek-V3硬体创新与模型优化_港澳快讯

梁文锋谈DeepSeek-V3硬体创新与模型优化

创始人

2025-05-19 16:01:53

0次

香港中通社5月16日电近日，中国人工智能科企DeepSeek创始人梁文锋等人发表了一篇回顾性论文，名为《深入了解 DeepSeek-V3：人工智能架构硬件的扩展挑战与思考）》，揭示了DeepSeek-V3的硬体创新与模型优化。

资料图为DeepSeek 香港中通社图片

综合媒体16日报道，该论文分析了 DeepSeek-V3/R1 模型架构及其人工智能基础架构和一些关键创新，以及当前大语言模型（LLM）的迅速扩展暴露了现有硬件架构的许多局限性。DeepSeek-V3 在2048块NVIDIA H800GPU集群上训练，通过有效的硬件感知模型设计，克服了这些限制，实现了经济高效的大规模训练和推理。

具体来说，论文提出了几个关键点。首先，DeepSeek-V3 采用了先进的DeepSeekMoE架构和多头潜在注意力（MLA）架构，极大地提高了内存效率。MLA 技术通过压缩键值缓存，显著降低了内存使用，使得每个token只需70KB的内存，相比其他模型大幅减少。

其次，DeepSeek还实现了成本效益的优化。通过其混合专家（MoE）架构，DeepSeek-V3 在激活参数的数量上实现了显著的降低，训练成本相比于传统密集模型降低了一个数量级。此外，该模型在推理速度上也进行了优化，采用双微批次重叠架构来最大化吞吐量，确保GPU资源得到充分利用。

业界分析认为，DeepSeek在未来硬件设计方面提出了创新的思考。梁文锋等人建议通过联合优化硬件和模型架构，来应对 LLM 的内存效率、成本效益和推理速度三大挑战。这为日后的AI系统开发提供了参考。（完）

上一篇：惩处艺人是为让其有“自由空间”？台陆委会惹争议

下一篇：香港特首李家超与吉林省委书记会面：进一步推动两地交流

梁文锋谈DeepSeek-V3硬体创新与模型优化

相关内容

热门资讯