香港新闻网2月19日电 北京时间2月18日,科技富豪埃隆·马斯克(Elon Musk)的人工智能初创公司xAI发布了更新版Grok 3大模型,被其称为“地球上最聪明的人工智能”。
Grok 3发布会直播截图。图源:马斯克X账号
在当天的直播中,马斯克与该公司的三位工程师进行了现场演示,展示了Grok 3在数学、科学和编程基准测试中的卓越表现,称其超越了谷歌Gemini、DeepSeek的V3模型、Anthropic的Claude以及OpenAI的GPT-4o。
马斯克在直播中透露称,Grok 3训练过程累计消耗20万块英伟达GPU。
Grok 3不仅标志著xAI技术的重大进展,也预示著人工智能领域新一轮的竞争即将拉开帷幕。
然而,在马斯克发布Grok 3的同时,火爆全球的DeepSeek也不甘落后。2月18日,DeepSeek的研究团队,发布了一篇关于原生稀疏注意力机制(NSA)的技术论文,在科技圈引起广泛关注。
DeepSeek。香港中通社资料图
这项技术旨在大幅提升下一代大型语言模型处理长文本的能力,同时兼顾效率,堪称LLM领域的又一里程碑式的进展。
在论文中,DeepSeek提出了NSA这一革命性的注意力机制。NSA是一种专为超快长上下文训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略、粗粒度的token压缩以及细粒度的token选择等核心技术,显著提升了模型的推理速度并降低了计算成本。
具体而言,NSA在保证性能的同时实现了加速的训练和推理过程,尤其在处理长序列场景时表现尤为突出。
相比于传统的全注意力模型,NSA在通用基准测试中达到了或超过了全注意力模型的表现水平。
此外,NSA的硬件友好设计使其在实际应用中更具优势,有望加速下一代大型语言模型在长文本处理领域的应用落地。
面对日趋激烈的大模型竞争态势,OpenAI也是动作频频。
当地时间2月18日,OpenAI CEO山姆·奥特曼(Sam Altman)在X社交平台上发起投票,询问网友希望下一个开源项目是哪一种,是做一个“相当小但仍需要在GPU上运行的o3-mini级模型”,还是“能做的最好的手机大小的模型”。这表明OpenAI可能即将开源某个大模型,这是自2019年开源GPT-2后的又一次重大举措。
OpenAI。央视新闻资料图
值得一提的是,1月20日,成本更低、性能比肩OpenAI o1模型正式版的DeepSeek-R1正式发布后,Open AI终于公布了GPT-5的路线图。
2月13日,奥特曼透露了关于GPT-4.5和GPT-5的更新路线图,宣布GPT-5将免费对所有用户开放,尽管会设置一些防止滥用的限制。称对于ChatGPT Plus和Pro的订阅用户,他们将能够体验到更加强大的AI能力。
从xAI到DeepSeek再到OpenAI、谷歌、Meta等,人工智能领域的大模型竞争愈发激烈。各大公司纷纷加大研发投入和模型迭代,试图通过资源汇集和技术创新保持领先地位,争夺通往AGI(通用人工智能)之路的“入场券”。(完)