香港中通社5月16日电 近日,中国人工智能科企DeepSeek创始人梁文锋等人发表了一篇回顾性论文,名为《深入了解 DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)》,揭示了DeepSeek-V3的硬体创新与模型优化。
资料图为DeepSeek 香港中通社图片
综合媒体16日报道,该论文分析了 DeepSeek-V3/R1 模型架构及其人工智能基础架构和一些关键创新,以及当前大语言模型(LLM)的迅速扩展暴露了现有硬件架构的许多局限性。DeepSeek-V3 在2048块NVIDIA H800GPU集群上训练,通过有效的硬件感知模型设计,克服了这些限制,实现了经济高效的大规模训练和推理。
具体来说,论文提出了几个关键点。首先,DeepSeek-V3 采用了先进的DeepSeekMoE架构和多头潜在注意力(MLA)架构,极大地提高了内存效率。MLA 技术通过压缩键值缓存,显著降低了内存使用,使得每个token只需70KB的内存,相比其他模型大幅减少。
其次,DeepSeek还实现了成本效益的优化。通过其混合专家(MoE)架构,DeepSeek-V3 在激活参数的数量上实现了显著的降低,训练成本相比于传统密集模型降低了一个数量级。此外,该模型在推理速度上也进行了优化,采用双微批次重叠架构来最大化吞吐量,确保GPU资源得到充分利用。
业界分析认为,DeepSeek在未来硬件设计方面提出了创新的思考。梁文锋等人建议通过联合优化硬件和模型架构,来应对 LLM 的内存效率、成本效益和推理速度三大挑战。这为日后的AI系统开发提供了参考。(完)