在上周于上海举行的华为全联接2025活动上,中国科技公司华为阐述了其下一代Ascend芯片系列的计划,并发布了其在吊舱和世界领先的计算集群中的部署细节。
华为董事会副主席徐直军在华为全联接大会上表示,2025年是值得纪念的一年,并表示今年1月DeepSeek-R1的首次亮相是华为的转折点。他承认了业内评论人士此前的确认:中国在半导体制造工艺方面可能会“在相当长的一段时间内”落后。
面对关税、政治言论和贸易禁运,华为将通过推进基础设施设计和相关技术,打造通过开源协议连接的强大集群,保持领先地位。此外,华为还决定开源多个此前专有的大型软件,包括盘古开源基金会的AI模型及其Mind SDK。
全新 Ascend 芯片系列
该公司计划生产三个新系列的 Ascend 芯片,分别为 950、960 和 970。
Ascend 950PR 和 950TO 将为低精度数据格式(包括 FP8)提供额外支持:950 型号将提供每秒 1000 万亿次浮点运算的性能,而 MXFP8 型号则提供 2000 万亿次浮点运算的性能。(1000 万亿次浮点运算相当于每秒 1000 万亿次浮点运算。)
该公司表示,950 将提供更好的矢量处理能力,并能够进行细粒度的内存访问,处理 128 字节块(低于 512 字节)。
Ascend 950 芯片将提供 2 TB/s 的互连带宽,比目前的 Ascend 910C 高出 2.5 TB/s。Ascend 910C 已于今年 5 月为华为客户投入生产。950PR 将于 2026 年第一季度上市,Ascend 950DT 将于第四季度上市。
一年后的 2027 年第四季度,Ascend 960 将提供比其同门产品 950 两倍的计算能力、内存访问带宽、内存容量和互连端口数量。该公司表示,它将支持华为专有的 HiF4 数据格式,该格式比其他 FP4 技术具有更高的精度。
2028年底,华为将推出性能最强的芯片——昇腾970。徐直军在会上表示:“我们仍在改进它的部分规格,但我们的总体目标是将其所有规格都提升到更高的水平。” 他表示,昇腾970系列将能够通过4TB/s的互连带宽进行通信,可执行8 PFLOPs的FP4运算,并且内存容量将比昇腾系列的前几代产品更大。
NPU 的超级Pod
华为的战略并非专注于生产比其主要竞争对手英伟达更强大的芯片,而是以 SuperPoD 的形式向超大规模用户提供现成的计算集群。这些 SuperPoD 将于 2026 年第四季度以搭载 Ascend 950DT 芯片的 Atlas 950 SuperPoD 的形式推出。
竞争对手NVIDIA的NVL144系统(SuperPod最接近的竞争对手)预计将于2026年中后期推出。华为声称,其首款SuperPoD将提供近七倍的处理能力,其NPU数量将是NVL144中GPU数量的56.8倍。华为表示,NVIDIA的下一代NVL576将于2027年发布,其性能仍将逊于Atlas 950 SuperPoD。
通用计算(非人工智能)芯片系列
在通用计算领域,华为计划于2026年初发布两款鲲鹏950处理器。它们将包含96核192线程,或更快的192核384线程。与此同时,华为还计划发布徐直军所称的“全球首款通用计算SuperPoD”,即基于鲲鹏950的泰山950。
开源连接协议,UnifiedBus 2.0
NPU和“通用计算”SuperPoD都将采用华为的UnifiedBus 2.0,这是对现有UnifiedBus 1.0的更新。UnifiedBus 1.0版本是Atlas 900 A3 SuperPoD所使用的互联技术,该技术于今年3月发布,目前已在全球各地的数据中心和机构中安装超过300个。
UnifiedBus 2.0 将以开源形式授权,其技术规范将立即向开发者社区发布。UnifiedBus 2.0 将在新一代 SuperPod 中初显锋芒,并成为 SuperPod 集群(最终命名为 SuperCluster)的连接协议。
第一个超级集群将是 Atlas 950 超级集群,它将提供比目前世界上最强大的 xAI Colossus 集群多 2.5 倍的 NPU 和多 1.3 倍的计算能力。
华为将于2027年底推出Atlas 960超级集群,该集群将包含超过一百万个NPU,并通过单个虚拟化计算实例提供FP4 4 ZFLOPS(1 ZFLOP代表每秒10 ^ 21次浮点运算)。徐直军表示:“由UnifiedBus驱动的SuperPoD和超级集群是我们应对当前和未来不断增长的计算需求的答案。”