DeepSeek 在华为Ascend芯片上训练其新 AI 模型 R2 的计划失败了,并被迫转向 Nvidia 并推迟发布。
几个月来,北京方面一直在宣扬技术进步势不可挡、迈向自给自足的理念。然而,现实总是会给我们带来反噬。中国人工智能宠儿DeepSeek近期的困境,就是雄心壮志遭遇技术限制的典型案例。
今年1月,R1型号成功上市后,DeepSeek面临来自中国的压力,要求其捍卫民族事业。据三位知情人士向《金融时报》透露,中国政府的信息很明确:使用华为的芯片,而不是英伟达的。
消息人士称,在实际训练新的 R2 模型时,DeepSeek 遇到了华为 AI 芯片的“持续性技术问题”。这些问题极其根本,导致项目陷入停顿。一位知情人士表示,这是该模型原定于 5 月发布的计划被取消的主要原因,也让该公司在这个不等人的市场中陷入了困境。
要理解为什么这如此重要,你必须了解人工智能训练和推理之间的区别。训练是最难的部分,就像送学生去大学进行多年的高强度学习一样。它需要强大的计算能力和稳定性。推理相对来说比较“简单”,就像问毕业生一个问题一样。
DeepSeek 发现,虽然华为的芯片可能已经为期末考试做好了准备,但还无法胜任这项艰巨的大学课程。该公司别无选择,只能重新使用 Nvidia 强大的系统进行训练。消息人士称,DeepSeek 团队仍在努力让 R2 模型与华为芯片兼容,以完成要求较低的推理阶段。
两位知情人士证实,华为甚至派了自己的工程师团队前往 DeepSeek 的办公室,帮助他们在芯片上安装并运行 R2 模型。但即使有专家在场,他们也无法成功进行训练。
随便找个业内人士聊聊,他们都会告诉你这并不令人意外。华为首席执行官任正非今年早些时候甚至表示,美国“夸大了华为的成就”,华为“还没有那么出色”,并指出其最好的芯片仍然落后一代。
然而,北京方面仍在积极推动其科技巨头青睐国产硬件。据《金融时报》报道,各家公司现在必须证明其订购符合出口标准的英伟达H20芯片的合理性。这是打造国产冠军芯片战略的一部分,但它可能会迫使企业做出技术上较差的选择。
除了使用华为芯片进行训练所面临的问题之外,据报道,DeepSeek 创始人梁文峰还告诉团队,他对 R2 模型的整体进展感到不满意。据说,他正在敦促团队设定更高的目标,打造一些能够让公司保持 AI 行业领先地位的产品。
尽管有自上而下的指令和民族自豪感,工程法则仍然适用。DeepSeek 的故事提醒我们,在争夺人工智能霸权的全球竞赛中,没有捷径。中国正在打持久战,但就目前而言,性能王冠仍然牢牢地落在了英伟达的头上。