华为人工智能硬件突破挑战英伟达的主导地位

中国科技巨头华为迈出了大胆一步，这可能会改变全球人工智能芯片竞赛的格局。该公司发布了一款名为 CloudMatrix 384 Supernode 的强大新型计算系统。据当地媒体报道，该系统的性能优于美国芯片巨头英伟达的同类技术。

如果性能声明被证明是准确的，那么尽管美国努力限制中国获取先进技术，但人工智能硬件的突破可能会重塑技术格局，因为全球人工智能的发展仍在继续。

据《南华早报》援引《科创板日报》的报道，CloudMatrix 384 超级节点被描述为“核级产品”。该硬件实现了令人印象深刻的 300 千万亿次浮点运算能力，超过了 Nvidia NVL72 系统的 180 千万亿次浮点运算能力。

CloudMatrix 384 超级节点经过专门设计，可解决随着人工智能模型规模和复杂性不断增长而日益严重的计算瓶颈问题。

该系统旨在与英伟达的产品直接竞争，后者迄今为止在全球人工智能加速器硬件市场占据主导地位。华为的CloudMatrix基础设施于2024年9月首次亮相，专为满足中国国内市场日益增长的需求而开发。

384 Supernode 变体代表了迄今为止最强大的 AI 架构实现，有报告表明它可以实现每秒 1,920 个令牌的吞吐量并保持高水平的准确性，据报道可与 Nvidia 的 H100 芯片的性能相匹配，但使用中国制造的组件。

人工智能硬件的突破尤其重要，因为华为在被列入美国实体名单以来面临严峻的技术限制的情况下仍然取得了这一突破。

制裁限制了华为获得美国先进半导体技术和设计软件的渠道，迫使华为开发替代方法并依赖国内供应链。

CloudMatrix 384 性能的核心技术进步似乎是华为对 Nvidia 的 NVLink 的回应——这是一种允许多个 GPU 有效通信的高速互连技术。

Nvidia 的 NVL72 系统于 2024 年 3 月发布，具有 72 个 GPU 的 NVLink 域，可作为单个强大的 GPU 运行，实现万亿参数模型的实时推理，速度比前几代快 30 倍。

据《南华早报》报道，华为正在与中国人工智能基础设施初创公司 SiliconFlow 合作，实施 CloudMatrix 384 超级节点，以支持杭州 DeepSeek 的推理模型 DeepSeek-R1。

超级节点是配备比标准系统更多资源的人工智能基础设施架构——包括增强型中央处理单元、神经处理单元、网络带宽、存储和内存。

该配置使它们能够充当中继服务器，增强集群的整体计算性能，并显著加速基础人工智能模型的训练。

华为在人工智能硬件方面的突破并非孤立存在，而是中国科技公司构建国内人工智能计算基础设施的更广泛努力的一部分。

今年 2 月，电子商务巨头阿里巴巴集团宣布未来三年将斥资 3800 亿元人民币（524 亿美元）用于计算资源和人工智能基础设施建设，这是中国民营企业在计算项目中迄今最大的一笔投资。

对于全球人工智能社区而言，Nvidia 硬件的可行替代方案的出现，最终或将解决限制人工智能发展的计算瓶颈。该领域的竞争有望提升可用的计算能力，并为开发者提供更多训练和部署模型的选择。

不过值得注意的是，截至报道发布时，华为尚未回应对这些说法发表评论的请求。

随着中美两国在科技领域的紧张关系持续加剧，华为的 CloudMatrix 384 超级节点代表着中国追求技术自给自足的重大进展。

如果性能声明得到验证，这一人工智能硬件突破将意味着华为尽管面临广泛的制裁，但已经在这一领域实现了计算独立。

这一发展也标志着中国科技领域的更广泛趋势，多家国内公司正在加大对人工智能基础设施的投资，以利用不断增长的需求并推动国产芯片的采用。

这一集体努力表明，中国致力于在这一具有重要战略意义的领域开发美国技术的国产替代品。