【来论】汪涛:DeepSeek冲击及美国5000亿AI投资计划影响分析
创始人
2025-02-03 11:06:09
0

编者按:近日,中国人工智能(AI)大模型DeepSeek(深度探索)在全球引起强烈关注,快速登上各项APP排行榜前列。尤其是在AI发展最前沿的美国,DeepSeek的横空出世,引发科技界、资本市场、政界的强烈震撼,甚至被美国部分人士称为中美之间的“斯普特尼克时刻”(Sputnik moment,指苏联在美国之前抢先发射人类第一颗人造卫星,引起美国落后的恐慌)。而就在此前几天,刚上任的特朗普宣布了美国将以5000亿美元投资人工智能产业发展的消息,亦引发各界关注。DeepSeek为何会引起如此大的冲击,美国在AI方面的新举措会产生何种影响,香港中通社、香港新闻网就此独家约稿天使投资人、中兴通讯前高级管理人员汪涛撰稿解读。稿件全文如下:


一、DeepSeek冲击波

近日,中国的DeepSeek在人工智能业内引发了巨大反响。为什么DeepSeek会在业界引起这么大的冲击,并不是说DeepSeek R1的技术性能远超过了OpenAI o1,而是在性能基本相同情况下,其训练成本、训练时间却呈现数量级的下降,这两者带来的结果都是颠覆性的。原因在于:

训练成本极低的主要因素是对算力需求数量级的下降,这样一来英伟达人工智能算力卡市场需求就会受到极大的冲击。

训练时间从过去6个月下降到只有6天,这会使人工智能软件的迭代速度发生质的变化。

人们可能非常疑惑,为什么DeepSeek居然能在美国看起来如此领先的AI领域作出让人炫目的成就?更重要的一个问题是:为什么在看似美国领先的AI领域居然会存在如此巨大的改进空间?其实,这种巨大的改进潜力不仅不是什么奇怪的事情,而且是整个美国引领的资讯技术领域存在的极为普遍的情况,只不过是DeepSeek把这层窗户纸在全社会层面捅穿了而已。

 

二、提升资讯处理效率的最一般方法

1.去掉冗余

要提升资讯处理效率,其最基本的原则其实是一样的,就是尽可能减少“重复” —— 或者用资讯技术的语言叫减少“冗余”。通过各种途径去掉冗余,就可提升资讯处理的效率。

如果是在存储中,已经存了一份资讯,完全相同的资讯不用再重复地存储,这就是存储资讯的压缩。一切文本、图像、视频的压缩技术和内存的压缩技术,都是通过各种途径减少重复的资讯,这就可以节省存储空间。

如果是已经计算过一遍的模型,就不要再重复地进行计算了,这就是演算法上运算量的压缩。

2.适当降低精度

精度要求越高,一般来说对算力的需求就更大。尤其是一些关系不大的细节,简单地去掉,就可以节省大量的算力以及存储量。例如,图像处理中,因为人对颜色的细节敏感度远远低于亮度,所以一般是在相邻的四个像素的色度资讯中,只保留一个就可以了。这样就可以直接将图像资讯量减少一半。

在人工智能中,也在这种适当降低精度的方法,叫“量化”。所谓的“量化”是简单地降低数据的精度,例如把4个位元组的浮点数据减少成2个位元组的浮点数据,存储量就简单地降低了一半。

3.适当简化降低问题复杂度

如果要计算的参数越多,当然计算量就越大。如果对模型进行适当地简化,减少参数和复杂度,计算量一般就会相应地下降。100亿参数模型进行数据训练,与1000亿参数相比,简单地来评估,在其他方面都一样的情况下,计算量就会下降一个数量级。但复杂度或参数减少了,可能其性能表现等也会有所降低。如果能够很好地选择参数和调整好各项系数,有可能做到性能表现上差异会极小。这种方法在人工智能中叫“蒸馏”(Distillation)。

三、DeepSeek的特色技术

1. 三个重要的特色技术

要理解DeepSeek为什么效率这么高。需要认识到它的确有很多自己特色性的技术。从这些特色性的技术中可以看到,他们的出发点都是尽最大努力去减少人工智能中的各项成本。例如:

l 不依赖于对要用于训练的数据进行人工打标签。

l 混合专家架构(Mixture of Experts:MoE)。

l 多头潜在注意力(Multi-Head Latent Attention,MLA)

2. 打标签是怎么回事

要理解DeepSeek不依赖于人工打标签,首先得理解打标签是怎么回事。人工智能软件为什么能理解人类的文本和图像等数据?这个如果不理解对数据打标签的话可能会感觉很神奇,但理解了这个后可能就没有什么神秘感了。如果从一开始就是把互联网上的数据直接输入人工智能软件里,要让它准确理解是极为困难的。所以,原始的数据并不是直接输给软件,而是先由人去判断并打上标签。简单来说,比如“美国”和“美图”这两个词,前一个要理解成一个国家“美国”,后一个要理解成“美丽的图片”简称。

这类理解是首先由人工智能的工程师制定好一些规则,然后交由专门进行打标签的人去干的活。所以,不要以为大模型的人工智能真的那么神奇,真的有智能,其实还是人类智能的电脑化。但是,这么干的话有一个问题,就是人工打标签是一个成本很高,效率也比较低,而且工作量很大的事情。减少打标签的工作量,当然就会极大地降低训练成本。

那DeepSeek为什么可以不依赖于人工打标签呢?最初的模型还是需要人工打标签的,但是提升效率的方法就是去掉冗余——已经打过标签的应该就不用重复再打了。另外,采用强化学习的方法,事实上不是在事先对数据进行人工理解的判断并打标签,而是可以在模型运行之后作出人工的判断来调整之前训练的数据,也起到人工打标签类似的作用。如果整体上是在之前已经采用人工打标签的方法训练过的基础数据之上进行强化学习,就基本不需要再人工打标签了。

3. 混合专家架构MoE

我个人事实上从了解通用人工智能技术的一开始就很推崇混合专家模型这个技术路线。那还是十多年前,连OpenAI都还没有成立的时候,我就作为投资人在矽谷接触到一些当时顶尖的通用人工智能创业公司。我当时就对“通用人工智能”这个概念非常有疑问。各种专业的人工智能技术早就有了,为什么不通过整合不同专家系统来实现通用的人工智能呢?当时那些创业者的技术团队给我的回复是:这种思路业界不是没人提,但要提前进行数据的专业分类会非常麻烦,而且不同人的理解会不一样。

人类也是分成各个领域专家的,要解通用的问题也是不同专家合在一起来实现。人工智能当然也会走向这个模式。

混合专家架构的好处是什么呢?这个需要结合前面所说的强化学习。因为已经训练出来的数据需要在新的与环境的交流中不断地进化。纯粹的通用人工智能,所有的数据与其他数据都可能有相关性,这个计算的量就太庞大了。但通过混合专家系统的专业分类,大多数数据的相关性计算可以只与自己专家模型内的数据进行,这就极大地降低了总体的计算量。

4.多头潜在注意力MLA

简单来说,当很多人去用人工智能软件如DeepSeek或豆包等进行查询的时候,输入的查询要变成电脑的语言,它叫键(Key)和相应的值(Value)。你马上就可以想到,那么多查询肯定有大量的查询是重复的。如果所有查询全是独立地在内存中存储,当然会占用大量宝贵的内存。那么,如果把那些重复的查询整合在一起,实现压缩,那内存占用是不是就非常小了?MLA其实就这么简单。实际进行查询的时候解压缩出来就和原来是一样处理过程了。

四、为什么美国的资讯技术会存在这么大的改进空间?

美国引领了整个资讯技术的进程。这使得美国建立的资讯架构成了全世界的标准。其他国家的技术人员往往是不问为什么标准会这么建立的原因,直接拿过来就用。即使发现一些看似很不合理的地方,也会认为肯定会有什么我们不知道的原因才会如此,人家美国肯定都想清楚了。事实上完全不是这样的。

其实也可以说DeepSeek采用的技术没有任何是真正原创,美国全都有。资讯技术实在是太多了,实现相同目标的技术路径和方案可以有非常非常多。选择不同的方案,可能会体现出不同的文化。

1. 各种资源的成本平衡问题

第一个问题是:软件的实现涉及到很多方面资源成本的平衡:

l 计算能力成本。

l 存储能力成本。

l 网路带宽成本。

l 编程的人工成本。

l 其他。

    实际的产品实现中,需要根据不同资源的成本差异,设计不同的实现方案。

(1) 如果计算能力获得很容易,存储成本很高,那么在演算法上就会倾向于算力依赖型,这样更为经济。

(2) 反之,如果存储成本很低,计算成本很高,就可以倾向于采用算力极小化,历史经验知识依赖型演算法。

(3) 如果编程的人工成本和管理成本很高,计算和存储能力的获得都很容易且成本较低,就会倾向于用最简单的编程演算法去实现,而不用太关注软件产品计算和存储的成本消耗和效率。这就是一种硬体依赖型的演算法。

(4) 如果硬体成本相对极高,就得通过更为复杂的编程去尽可能节省计算和存储的硬体资源。

(5) 如果网路带宽成本很高,就会追求需要传输的资讯更高压缩。

所以,如果没有以上各个方面成本的综合平衡,是不能简单地说哪种演算法或策略更好的。

但是,美国在引领资讯技术发展的过程中,也逐步地形成了他自己特定的文化。因为晶片的摩尔定律,计算和存储能力是可以很容易获得并迅速增长的,而美国的人工比较贵。所以,美国就形成不太关注计算和存储效率的最优化,而主要关注编程的方便性、简洁性、可读性等。这个虽然不那么绝对,但总体上是这样。

2.商业因素

因为CPU是INTEL等公司生产的,他们严格按照摩尔定律不断地成倍升级晶片性能。如果抛弃计算依赖型的演算法,过多地提升计算效率,新的CPU就不会那么强烈的需求了。在整个资讯技术的硬体产品中,掌握CPU的公司无疑具有整人资讯技术架构最基本的标准控制能力。所以,在所有硬体中,掌握CPU的公司相比于存储产品的公司,拥有更大的话语权。外设类的公司话语权就更弱了。

所谓的WINTEL联盟,就是这两家公司形成一种默契,微软根本不用过于关注软件的计算效率,这个问题交给INTEL来解决就可以了。微软也乐得将更多精力关注于编程的简单性和用户介面的更加友好。因此,这种文化长期演变下来,就会在计算效率上形成巨大的改进空间。

这种计算效率非常低下的改进空间,在人工智能时代也延续到英伟达与OpenAI等形成的软硬体体系上。英伟达自己的CUDA在为研发人员提供基于英伟达晶片很便利的开发平台的同时,也遮罩了对最底层硬体的直接访问和优化。

事实上,所有那些技术改进,提升计算效率的方法美国人都知道,甚至大多数都是他们最先提出来的。但因为这种文化的形成,他们不会去充分利用这些技术,仅此而已。

这就是为什么DeepSeek可以将人工智能的计算效率提升这么大的技术可能性所在。

五、美国5千亿Stargate AI 投资计划会产生什么影响?

Stargate AI是特朗普政府推动,由日本软银集团、美国开放人工智能研究中心和美国甲骨文公司三家企业将投资5000亿美元,用于在美国建设支持人工智能(AI)发展的基础设施计划。这是一个非常类似中国基建投资的发展模式。从其计划本身来说,对美国当然是非常好的。美国在以往只有罗斯福当政时期有过类似的通过基建大投资促进整体社会经济发展的案例。但作为一种产业发展政策,美国不仅极少成功的案例,而且从很多自由派经济学家来说,他们是一直极力反对政府这么做的。所以,美国这种计划能否真正落地是一个问题。

但我们假设其可以按计划发展成功的话,我个人认为其影响是有非常积极一面的。这个计划主要是建设用于AI的超级计算中心,基础网路设施等。另外还有配套的教育、人才培养、创新孵化,AI应用层的金融与医疗的AI应用、制造业升级等。这个建设计划本身就会带动美国相关产业的市场销售,建设了更好的AI基础设施,类似中国的东数西算等工程,无疑会给美国未来的AI发展提供更好的基础。

问题就在于,美国搞这种违反以前自由市场经济理念的产业发展计划缺乏经验。关键就在于其能否真正落地。

(本文作者为天使投资人、中兴通讯前高级管理人员汪涛,本网获独家授权刊发,转载请注明出处)

(本文为作者观点,不代表本媒体立场)

相关内容

热门资讯

施政报告2024 | 香港劏房... 香港新闻网10月16日电 行政长官李家超今日(16日)表示,特区政府决定以立法方式制订住宅楼宇分间单...
【来论】李然:矢志改革惠民生 ... 香港特区行政长官李家超日前发表任内第三份施政报告,亦是香港特区完成基本法第二十三条本地立法後的首份施...
香港村屋发生命案涉及两父子 香港新闻网2月12日电 香港元朗11日晚间发生双尸案,警方当天晚间8时多接获一名男子报案,指有两名...
香港总商会倡开征数码服务税创收 香港中通社2月11日电(记者 徐嘉仪)香港新一份财政预算案将于本月底公布,香港总商会11日就预算案提...
助推人民币国际化 中国银行柬... 香港新闻网11月22日电 近年来,日益“国际范儿”的人民币在服务中国高水平对外开放中呈现出强劲势头、...
香港文学馆小作家写作培训计划开... 香港中通社11月16日电(记者 徐嘉仪)“香港文学馆第二届小作家写作培训计划”11月16日在香海正觉...
“识变”中“应变” 香港举行第... 香港新闻网11月16日电 为进一步推动大湾区会计复合型人才培养,满足粤港两地会计行业融合发展需求,...
中联部副部长陆慷:对中美合作伙... 香港新闻网11月15日电 中共中央对外联络部副部长陆慷15日指出,中国对中美双边关系的基本态度并未改...
专访大湾区航空CEO吴秀兰:在... 香港新闻网11月3日米子电 (记者 黄璇)疫情后航空业逐步复苏,大湾区航空于10月27日正式开启“...
中国对挪威冰岛等9国试行免签政... 香港新闻网11月2日电 中国外交部网站消息,11月1日,中国外交部发言人林剑主持例行记者会。中国扩...