用心打造
VPS知识分享网站

蚂蚁集团利用国产芯片训练人工智能模型并降低成本

据知情人士透露,蚂蚁集团正在依靠中国制造的半导体来训练人工智能模型,以降低成本并减少对美国受限技术的依赖。

这家阿里巴巴旗下的公司使用国内供应商的芯片,包括与母公司阿里巴巴和华为技术有限公司相关的芯片,使用混合专家 (MoE) 方法训练大型语言模型。消息人士称,结果与使用 Nvidia 的 H800 芯片产生的结果相当。尽管蚂蚁金服继续在其部分 AI 开发中使用 Nvidia 芯片,但一位消息人士表示,该公司在其最新型号中越来越多地转向使用 AMD 和中国芯片制造商的替代产品。

蚂蚁集团利用国产芯片训练人工智能模型并降低成本

这一进展表明,蚂蚁金服已更深入地参与了中美科技公司之间日益激烈的人工智能竞赛,尤其是在各家公司都在寻找经济高效的模型训练方式的情况下。对国产硬件的试验反映了中国公司为绕过出口限制而做出的更广泛努力,这些限制阻碍了英伟达 H800 等高端芯片的销售。虽然这款芯片不是最先进的,但仍然是中国企业可用的最强大的 GPU 之一。

蚂蚁金服发表了一篇研究论文,描述了其工作,指出其模型在某些测试中的表现优于 Meta 开发的模型。最初报道此事的彭博新闻社尚未独立核实该公司的结果。如果这些模型的表现与声称的一致,蚂蚁金服的努力可能代表中国在降低运行 AI 应用程序的成本和减少对外国硬件的依赖方面迈出了一步。

MoE 模型将任务划分为由不同组件处理的较小数据集,并引起了人工智能研究人员和数据科学家的关注。谷歌和杭州初创公司 DeepSeek 都采用了这项技术。MoE 概念类似于拥有一个专家团队,每个专家负责部分任务,以提高模型生成过程的效率。蚂蚁金服拒绝就其硬件来源方面的工作发表评论。

训练 MoE 模型需要高性能 GPU,而对于小公司来说,购买或使用这类 GPU 的成本可能过于昂贵。Ant 的研究重点是降低成本障碍。该论文的标题带有明确的目标:“无需高级 GPU”即可扩展模型。[我们的引号]

蚂蚁金服所采取的方向以及使用 MoE 来降低训练成本的做法与 Nvidia 的做法形成了鲜明对比。首席执行官黄仁勋曾表示,即使引入了 DeepSeek 的 R1 等更高效的模型,对计算能力的需求仍将继续增长。他的观点是,公司将寻求更强大的芯片来推动收入增长,而不是旨在通过更便宜的替代品来削减成本。Nvidia 的战略仍然专注于打造具有更多核心、晶体管和内存的 GPU。

根据蚂蚁集团的论文,使用传统高性能硬件训练一万亿个代币(AI 模型用于学习的基本数据单位)的成本约为 635 万元人民币(约合 88 万美元)。该公司优化的训练方法通过使用低规格芯片将成本降低至约 510 万元人民币。

蚂蚁集团表示,计划将以这种方式生成的模型 Ling-Plus 和 Ling-Lite 应用于医疗保健和金融等工业 AI 用例。今年早些时候,该公司收购了中国在线医疗平台好大夫网,以进一步实现蚂蚁集团在医疗保健领域部署基于 AI 的解决方案的雄心。该公司还运营其他 AI 服务,包括一款名为“智小宝”的虚拟助手应用程序和一款名为“马小财”的金融咨询平台。

北京人工智能公司盛尚科技首席技术官罗宾·余表示:“如果你找到一个攻击点来打败世界上最优秀的功夫大师,你仍然可以说你打败了他们,这就是为什么现实世界的应用如此重要。”

Ant 已将其模型开源。Ling-Lite 有 168 亿个参数(有助于确定模型如何运行的设置),而 Ling-Plus 有 2900 亿个参数。相比之下,据《麻省理工技术评论》估计,闭源 GPT-4.5 有大约 1.8 万亿个参数。

尽管取得了进展,但 Ant 的论文指出,训练模型仍然具有挑战性。在模型训练过程中对硬件或模型结构的细微调整有时会导致性能不稳定,包括错误率飙升。

赞(0)
未经允许不得转载;国外VPS测评网 » 蚂蚁集团利用国产芯片训练人工智能模型并降低成本
分享到