香港中通社2月6日电 题:阿里大模型元老杨红霞:以为可低成本发展AI是错误想法
香港中通社记者 梁嘉轩
近日,来自浙江的DeepSeek R1模型横空出世,R1模型无疑为行业的下一前沿带来引导和启发。香港社会各界都在讨论AI。为何香港坐拥5间全球百强大学,却未有如ChatGPT、DeepSeek般“家喻户晓”的AI产品?
现任职于香港理工大学电子计算学系的杨红霞教授,曾组建阿里巴巴、字节大模型团队。她接受中通社记者专访认为,香港若要做出DeepSeek、OpenAI般的AI产品,需要特区政府、研究拨款机构及业界投入更多资源,并加强合作推动基础建设级的平台,以多个小模型搭建大模型。
为追上世界AI的步伐,不重蹈芯片行业的覆辙,香港特区政府及科创业界近年大力发展AI,并在数码港建立“超算中心”等AI基建项目,特区政府更拨款30亿港元,推行为期三年的人工智能资助计划。杨红霞告诉记者,这远远不够,光“超算中心”的算力就已经难以应付开发大模型的需求。
DeepSeek被广泛讨论的其中一大原因,是它的训练成本只有550万美金,但杨红霞告诉记者,大模型的训练包括数据的预处理和对齐阶段,其中预处理的成本远高于对齐阶段,她认为该550万美金主要指对齐阶段的训练成本,R1的基础模型是基于DeepSeek-V3 6710亿项参数的混合专家模型(MoE),整体训练至少需要数千张显卡。
杨红霞指出,DeepSeek创始人梁文峰以量化金融交易出身,其团队本身已有较成熟的资金和基础建设,更是中国第一家拥有万卡集群算力的企业。“因此,看见DeepSeek的成功而认为AI的发展可以通过低成本实现,是错误的想法。”预处理阶段需要给模型灌入大量数据,此阶段已经耗用大量算力,这部分的成本难以节约。
杨红霞承认,在寸土寸金的香港,要建立具万卡集群算力的超算中心有一定难度,但她认为香港有潜力以“模型之上的模型”框架(MoM)发展AI,即科创企业专注其熟悉的领域发展小模型,并通过基建级别的模型串连在一起,这样能更大程度地发挥出数码港、科技园及香港各院校内的算力资源,做出来自香港的大模型。
杨红霞指出,这样的好处是成本远低于传统大模型的建立。对比大模型对显卡的需求动辄上万张,通过MoM框架创建一个1000亿项参数的基础模型仅需512至1024张显卡。建立小模型所涉及的数据预处理也远少于大模型,更适合香港分布较散和不同型号的算力资源。
此外,更多的企业可参与到AI的发展中,她举例从事医疗的科研人员处理数据的方式会与计算机专业的有所区别,而目前的大模型非常依赖互联网上的数据,因此正如医疗般需要专业处理方式、依赖互联网上所缺乏之数据,若从事这些专业的人员可以参与到AI的小模型建设中,再通过香港基建级的AI平台将其打通,香港有能力打造出具有影响力的大模型。
目前,香港并不缺乏人工智能相关的人才,缺乏的是资金及与资金高度相关的算力。因此,杨红霞建议特区政府应加强对高等院校在AI上的投资,“你不去投这个东西,它就转不起来”。(完)