用心打造
VPS知识分享网站

2025年即将上市含Nvidia在内的7款全新尖端AI芯片

虽然 Nvidia 凭借其 GPU 仍然处于 AI 计算领域的顶端,但其他几家公司也在竞相利用 AI 芯片抢占相当大的市场份额,这些芯片要么与 Nvidia 最快的芯片正面交锋,要么追逐边缘计算等相邻机会。

这些公司有大有小,既有 Nvidia 的客户亚马逊和谷歌,也有直接竞争对手 AMD 和 d-Matrix,后者属于一批从头开始开发新芯片架构的初创公司。

最近,AMD公布了其迄今为止对 Nvidia 的最大挑战——Instinct MI350 系列。该系列将提供比其竞争对手 B200 GPU 和 GB200 超级芯片高出 60% 的高带宽内存容量。据该公司称,这使得 MI355X 在推理模型方面比 B200 的每美元代币收益高出 40%。

2025年即将上市含Nvidia在内的7款全新尖端AI芯片

以下是 Nvidia 和竞争对手在过去几个月内发布或将于今年晚些时候上市的七款尖端人工智能芯片。

亚马逊网络服务 Trainium2

亚马逊网络服务公司于去年 12 月推出了 Trainium2 AI 芯片,并表示其性价比通常比当时其他 GPU 驱动的芯片高出 30% 到 40%。

据 AWS 称,这是基于 Trn2 实例的,该实例具有 16 块 Trainium2 芯片,可提供 20.8 petaflops 的峰值计算能力,用于训练和部署数十亿参数的大型语言模型。

Trainium2 还为全新的 Amazon EC2 Trn2 UltraServer 提供支持,该服务器搭载 64 块 Trainium2 芯片,通过 NeuronLink 互联技术连接在一起,使其峰值计算能力可扩展至每秒 83.2 千万亿次浮点运算。这相当于单个实例的计算、内存和网络能力的四倍。

每块 Trainium2 芯片由 8 个 NeuronCore-v3 组件组成,总共可实现近 1300 teraflops 的 8 位浮点运算能力,比第一代 Trainium 快 6.7 倍。其高带宽内存容量为 96 GB,是第一代 Trainium 的三倍,而高带宽内存带宽为 2.9 TBps,速度提高了 3.6 倍。

AMD Instinct MI355X

AMD 上周表示,其 Instinct MI355X GPU 与 Nvidia 最快的基于 Blackwell 的芯片相比,具有更大的内存容量和更好或相似的 AI 性能。

据 AMD 称, MI355X配备 288 GB HBM3e 显存,高于其 MI325X的 256 GB 容量,比英伟达B200 GPU 和 GB200 超级芯片 的容量高出约 60%  该公司表示,这使得该 GPU 能够在单芯片上支持高达 5200 亿个参数的 AI 模型。该 GPU 的显存带宽为 8 TBps,据称与 B200 和 GB200 相同。

MI355X 的热设计功率高达 1,400 瓦,适用于液冷服务器,可提供高达 20 petaflops 的峰值 6 位浮点 (FP6) 和 4 位浮点 (FP4) 性能。

AMD 声称,FP6 的性能比 GB200 高出两倍,比 B200 高出一倍多。另一方面,FP4 的性能与 GB200 相同,但比 B200 快 10%。

MI355X 还可以执行每秒 10 千万亿次浮点运算 (FP8) 峰值,AMD 表示这与 GB200 相当,但比 B200 快 10%;每秒 5 千万亿次浮点运算 (FP16) 峰值,据称与 GB200 相当,但比 B200 快 10%;以及每秒 79 万亿次浮点运算 (FP64) 64 位浮点,据称是 GB200 和 B200 的两倍。

AMD 表示,MI355X 为大型模型“提供了最高的推理吞吐量”,与 B200 相比,该 GPU 为 DeepSeek R1 模型提供的性能提高了约 20%,为 4050 亿参数 Llama 3.1 模型提供的性能提高了约 30%。

该公司表示,与 GB200 相比,MI355X 与同样拥有 4050 亿参数的 Llama 3.1 型号不相上下。

MI355X 相对于 B200 的推理优势使得 GPU 每美元可提供高达 40% 的代币,AMD 称之为对抗 Nvidia 的“关键价值主张”。

D-Matrix Corsair

芯片设计初创公司 d-Matrix 去年 11 月推出了 Corsair 加速卡,称其为“全球最高效的数据中心推理 AI 计算平台”。

根据 d-Matrix 的数据,与 Nvidia 的 H100 GPU 相比,Corsair 对于使用 8 位数学的 700 亿参数 Llama 模型提供了 10 倍更快的性能、3 倍更好的性价比和 3 倍更好的能源效率。

Corsair 采用 PCIe Gen 5 外形尺寸,结合了两个通过 PCIe 连接的专用集成电路 (ASIC),每个 ASIC 包含基于该初创公司的数字内存计算架构 (DIMC) 的内核以及 RISC-V 内核和四个互连的四个芯片组的其他元素。

D-Matrix 表示,其 DIMC 架构能够提供 150 TBps 的片上内存带宽,据称这比发布时市面上现有的高带宽内存“高出一个数量级”。这得益于 DIMC 对内存和计算的紧密集成。

EnCharge EN100

据芯片设计初创公司 EnCharge 称,EnCharge EN100 于 5 月底发布,被称为“世界上第一个基于精确且可扩展的模拟内存计算的人工智能加速器”。

该公司表示,EN100 专为笔记本电脑、工作站和边缘设备而设计,采用适用于笔记本电脑的 M.2 外形尺寸,仅需 8.25 瓦即可实现每秒超过 200 万亿次操作 (TOPS)。

另一方面,基于 PCIe 的工作站解决方案包含四个神经处理单元 (NPU),可提供大约 1,000 TOPS,据 EnCharge 称,这使其能够“以极低的成本和功耗提供 GPU 级计算能力”。

EN100 配备高达 128 GB 的 LPDDR 内存,目前正通过早期访问计划向开发人员和 OEM 提供。

Google TPU v7

谷歌于 4 月发布了其第七代 TPU Ironwood,据称其设计旨在提高推理性能和可扩展性。

谷歌云首席执行官托马斯·库里安在 Google Cloud Next 2025 活动上宣布,这一进步将使谷歌及其云客户能够大规模开发和部署更复杂的 AI 模型进行推理。

他说道:“我们的第七代 TPU Ironwood 代表了我们迄今为止最大、最强大的 TPU,比我们最新的高性能 TPU 提高了 10 倍以上。”

根据客户的需求,谷歌将提供 256 芯片配置和 9,216 芯片配置的 Ironwood。

后一种配置允许 Ironwood 在一个吊舱中提供 42.5 exaflops 的 AI 计算能力,Kurian 表示这使得谷歌能够满足 Gemini 2.5 等思维模型的需求。

与谷歌第六代 TPU 相比,Ironwood 的每瓦性能提升了两倍,达到每瓦每秒 29.3 次峰值浮点运算,高带宽内存提升了六倍,每芯片 192 GB。据谷歌称,TPU 的高带宽内存也提升了 4.5 倍,达到 7.37 TBps,芯片间互连带宽提升了 50%,达到 1.2 TBps。

Nvidia Blackwell Ultra GPU

Nvidia 在 3 月份表示,其即将推出的 Blackwell Ultra GPU 架构专为 AI 推理模型打造,并声称相比上一代产品,它可以显著提高 AI 提供商的收入。

Blackwell Ultra 于 3 月份在 Nvidia 的 GTC 2025 活动上发布,它将最大 HBM3e 高带宽内存增加了 50%,达到 288 GB,并将 4 位浮点 (FP4) 推理性能提高了同样多。

来自技术合作伙伴的基于 Blackwell Ultra 的产品预计将于 2025 年下半年首次亮相。这些合作伙伴包括戴尔科技、思科、惠普企业、联想和超微等 OEM,以及亚马逊网络服务、谷歌云、微软 Azure 和 Oracle 云基础设施等云服务提供商。

Blackwell Ultra 的旗舰产品是 GB300 NVL72 平台,该平台由 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU 组成,可提供每秒 1.1 exaflops 的 FP4 密集计算能力、20 TB 高带宽内存和 40 TB 快速内存。该平台的 NVLink 带宽最高可达 130 TBps,网络速度最高可达 14.4 TBps。

数据中心运行 DeepSeek 和其他类型的 AI 模型,这代表着 Nvidia 所说的 1 万亿美元商机,该公司正专注于其 GPU、系统和软件如何帮助 AI 应用程序提供商赚取更多利润,Nvidia 表示,仅 Blackwell Ultra 一项就能使“数据中心收入机会”增加 50 倍。

50 倍的提升是基于 Nvidia 表示,它可以使用新的 GB300 NVL72 机架级平台为 6710 亿参数的 DeepSeek-R1 推理模型提供性能提升——该平台使用新的基于 Blackwell Ultra 的 GB300 超级芯片更新了最近推出的 GB200  NVL72—— 在相同功率水平下,基于 HGX H100 的数据中心。

Nvidia 表示,HGX H100 可以使用 DeepSeek-R1 模型在 90 秒内每秒传送 100 个令牌,而 GB300 NVL72 可以将每秒传送的令牌数提高 10 倍,达到 1,000 个,同时将传送时间缩短至仅 10 秒。

SiMa.AI MLSoC Modalix

芯片设计初创公司 SiMa.AI 在 3 月份宣布,其 MLSoC Modalix 芯片将为系统级模块提供动力,据称这将降低在边缘部署 AI 的总成本。

SiMa.ai 表示,MLSoC Modalix 系统级模块 (SoM) 是与 Enclustra 合作开发的,由于其与“边缘 AI 领域领先的 GPU SoM 提供商”兼容,因此可以“无缝”集成到“一系列领先系统中”。

该初创公司表示,MLSoC Modalix 于 1 月份开始向客户提供样品,其每瓦性能是其他产品的 10 倍以上,适用于利用大型语言模型和计算机视觉模型等的多模式 AI 应用。

该产品采用每秒 50 万亿次运算 (TOPS) 的 MLSoC Modalix,支持两个或四个芯片的集群,提供高达 100 TOPS 或 200 TOPS 的性能,后者可在 PCIe 卡中使用。

MLSoC Modalix 的高级功能包括 50-TOPS 机器学习加速器、由八个 Arm Cortex A65 CPU 组成的应用处理单元、视频编码器和解码器、计算机视觉单元、图像信号处理器、DRAM 接口系统和高速 I/O 子系统。

赞(0)
未经允许不得转载;国外VPS测评网 » 2025年即将上市含Nvidia在内的7款全新尖端AI芯片
分享到