华为声称CloudMatrix AI性能超越Nvidia

根据华为研究人员本周发布的综合技术论文，华为 CloudMatrix AI 性能已实现该公司所称的重要里程碑，内部测试表明，其新的数据中心架构在运行DeepSeek 先进的 R1人工智能模型时优于 Nvidia 的 H800 图形处理单元。

这项研究由华为技术公司与中国人工智能基础设施初创公司 SiliconFlow 合作开展，首次详细公开披露了 CloudMatrix384 的性能指标。

然而，值得注意的是，这些基准测试是由华为在其系统上进行的，这引发了人们对其声称的性能优于既定行业标准的独立验证的质疑。

论文将CloudMatrix384描述为“体现华为重塑人工智能基础设施基础愿景的下一代人工智能数据中心架构”。虽然其技术成就令人印象深刻，但缺乏第三方验证意味着，应该在华为持续努力在美国制裁之外展示技术竞争力的背景下看待其成果。

CloudMatrix384在一个超级节点中集成了384个Ascend 910C NPU和192个Kunpeng CPU，通过超高带宽、低延迟的统一总线（UB）连接。

与传统的分层设计不同，点对点架构实现了华为所谓的“直接全对全通信”，允许计算、内存和网络资源动态汇集并独立扩展。

该系统的设计解决了创建现代人工智能基础设施所面临的显著挑战，特别是对于混合专家 (MoE) 架构和分布式键值缓存访问，这对于大型语言模型操作至关重要。

华为 CloudMatrix AI 性能测试结果虽然是内部进行的，但却展现了令人印象深刻的系统性能指标。为了理解这些数字，我们可以将 AI 处理过程想象成一次对话：“预填充”阶段是 AI 阅读并“理解”问题，而“解码”阶段是 AI 逐字生成答案。

根据该公司的测试，CloudMatrix-Infer 实现了每个处理单元每秒 6,688 个令牌的预填充吞吐量，以及每秒 1,943 个令牌的生成响应吞吐量。

将标记视为单独的文本片段——大致相当于AI处理的单词或单词的一部分。具体来说，这意味着系统可以在每个芯片上每秒处理数千个单词。

“TPOT”测量值（每个输出令牌的时间）低于 50 毫秒，这意味着系统在不到二十分之一秒的时间内生成响应中的每个单词 – 从而产生非常快的响应时间。

更重要的是，华为的测试结果与其宣称的优于竞争系统的效率等级相符。该公司通过“计算效率”来衡量这一点——本质上是每块芯片相对于其理论最大处理能力完成的有用工作量。

华为声称，其系统读取问题的速度达到每秒每 TFLOPS 4.45 个令牌，生成答案的速度达到每秒每 TFLOPS 1.29 个令牌。从广义上讲，TFLOPS（每秒万亿次浮点运算）衡量的是原始计算能力，类似于汽车的马力等级。

华为的效率声明表明，其系统每单位计算能力比 Nvidia 的竞争对手 H100 和 H800 处理器能完成更多有用的 AI 工作。

该公司报告称，在每字 15 毫秒以下的更严格的时间要求下，每秒可维持 538 个令牌。

然而，这些令人印象深刻的数字缺乏第三方的独立验证，而这是技术行业验证性能声明的标准做法。

报告的华为 CloudMatrix AI 性能指标源自研究论文中引用的几个技术细节。该系统实现了华为所描述的“点对点服务架构”，将推理工作流分解为三个子系统：预填充、解码和缓存，从而使每个组件能够根据工作负载需求进行扩展。

该论文提出了三项创新：具有分解资源池的点对点服务架构、支持高达 EP320 配置的大规模专家并行性（其中每个 NPU 芯片承载一名专家）以及硬件感知优化，包括优化运算符、基于微批的流水线和 INT8 量化。

在中美科技紧张局势加剧的背景下，这些性能声明应运而生。华为创始人任正非近期承认，该公司的芯片仍落后美国竞争对手“一代”，但他表示，其集群方法可以实现与全球最先进系统相当的性能。

Nvidia 首席执行官黄仁勋在最近接受 CNBC 采访时似乎证实了这一点，他表示：“人工智能是一个并行问题，所以如果每台计算机都无法胜任……那就增加更多的计算机……在中国，他们拥有充足的能源，他们只会使用更多的芯片。”

华为“天才少年”计划首席研究员左鹏飞阐述了这项研究的战略重要性，他写道，该论文旨在“增强国内技术生态系统对使用中国开发的 NPU 超越 Nvidia 的 GPU 的信心”。

除了性能指标之外，华为报告称，在内部未经验证的 16 个基准测试中，INT8 量化保持了与官方 DeepSeek-R1 API 相当的模型精度。

人工智能和技术行业可能会等待对华为 CloudMatrix AI 性能的独立验证，然后才能得出明确的结论。

尽管如此，所描述的技术方法表明人工智能基础设施设计方面有真正的创新，无论具体的性能数字如何，都能为行业提供见解。

无论是否得到证实，华为的说法都凸显了人工智能硬件领域的竞争激烈程度，以及各公司为实现计算效率而采取的不同方法。