用心打造
VPS知识分享网站

AWS推出基于Nvidia Blackwell的全新服务器,用于高级AI任务

亚马逊网络服务正在扩大其基于 GPU 的服务器阵容,本周宣布全面推出基于 Nvidia Grace Blackwell 超级芯片的新系统,旨在训练和部署“最大、最复杂的 AI 模型”。

AWS推出基于Nvidia Blackwell的全新服务器,用于高级AI任务

AWS 计算和机器学习副总裁 David Brown在一篇博文中表示,新款 P6e-GB200 UltraServer“代表了我们迄今为止最强大的 GPU 产品” 。Brown 写道,新的计算服务“建立在我们在大规模提供安全、可靠的 GPU 基础设施方面积累的所有经验之上,以便客户能够自信地突破 AI 的界限”。

P6e-GB200 UltraServer 的上市紧随 AWS 于 5 月推出搭载Nvidia B200 GPU 的 Amazon EC2 P6-B200 实例之后。这些实例主要用于基础模型的大规模分布式 AI 训练和推理。

AWS还表示,基于Blackwell的服务器是该公司大规模部署的首个液冷硬件平台。据AWS称,该冷却系统利用该公司的行内热交换器(IRHX)技术,支持GB200 NVL72机架的计算密度。

每台 P6e-GB200 UltraServer 包含多达 72 个 Blackwell GPU,这些 GPU 通过第五代 Nvidia NVLink 互连,全部作为单个计算单元运行。每台 UltraServer 提供每秒 360 千万亿次浮点运算 (FP8) 的计算能力、13.4TB 高带宽内存以及高达 28.8 Tbps 的弹性光纤适配器 (EFAv4) 网络。

据该公司称, Blackwell实例建立在最近的几项 AWS 基础设施创新之上,包括 AWS Niro 系统和 EC2 UltraClusters,并与 Hyperpod 和 Elastic Kubernetes Service (EKS) 等 AWS 托管服务协同工作。

布朗在他的博客文章中表示,P6e-GB200 UltraServer 旨在加速新兴生成式人工智能开发计划(如推理模型和代理人工智能系统)的创新。

布朗写道:“我们的客户目前正在构建的人工智能系统规模——涵盖药物研发、企业搜索、软件开发等等——确实令人瞩目。” 全新 Blackwell 系统的目标是“提供安全可靠的大规模 GPU 基础设施,让客户能够自信地突破人工智能的界限。”

Brown 写道,P6e-GB200 UltraServer 对于计算和内存密集型 AI 工作负载而言“非常理想”,例如“训练万亿参数规模的前沿模型”。与此同时,P6-B200 实例支持广泛的 AI 工作负载,并且“是中到大规模训练和推理工作负载的理想选择”。

赞(0)
未经允许不得转载;国外VPS测评网 » AWS推出基于Nvidia Blackwell的全新服务器,用于高级AI任务
分享到