高效运行模拟和高性能工作负载的挑战是一个持续存在的问题,需要包括基础设施团队、网络安全专业人员以及当然还有时刻关注的财务人员在内的利益相关者的投入。
运行这类高计算任务通常涉及数千个并发进程,在传统基础设施上运行成本高昂。IBM 最新推出的云代码引擎(Cloud Code Engine)——支持 GPU 的无服务器集群(Serverless Fleets)——有望降低复杂性。它将高性能计算与托管式、按需付费的无服务器模型相结合,用户只需指定一个入口点,即可自动完成大规模部署。

无基础设施摩擦的高性能计算
运行大规模人工智能训练、风险模拟或生成式工作负载的企业通常面临两大难题:GPU 资源有限和基础设施/云成本不断上涨。Serverless Fleets 提供了一种替代方案。企业无需维护专用 GPU 集群,即可通过单一端点提交大量计算作业。
IBM 的系统会配置由 GPU 支持的虚拟机,执行工作负载,并在任务完成后逐步减少资源使用量。IBM 声称,这种方法可以提高资源利用率和成本透明度,客户只需为实际运行时间付费。
在实践中,这可以帮助金融机构(例如)更快地进行风险建模,或者让媒体公司无需投资GPU集群或签订长期租赁合同即可渲染其工作负载。对许多人来说,这意味着更快的创新速度和更低的运营成本。
实施现实
IBM 声称,Serverless Fleets 可以“几乎无需 SRE 人员”即可大规模管理工作负载。虽然这一模型雄心勃勃,但它无疑简化了编排的细节。代码引擎可以确定所需的工作实例数量,并根据工作需求进行扩展。这减少了通常用于平衡并行 GPU 任务的调优工作。
然而,采用该平台需要谨慎监管,并密切关注成本——这是无服务器环境中普遍存在的挑战。企业需要清晰了解其常见的工作负载模式,并且在考虑将GPU密集型作业外包给托管云时,还需注意任何合规性问题。
市场和生态系统背景
IBM 与其他超大规模数据中心运营商一样,正在将无服务器平台应用于高性能计算。AWS 通过 Fargate 和 ECS 或 EKS 支持 GPU 支持的容器,而 Microsoft Azure 则在其无服务器容器应用中提供启用 GPU 的容器。IBM 表示,其云代码引擎 (Cloud Code Engine) 与之不同,它支持 Web 应用、事件驱动函数和 GPU 密集型批处理作业,所有这些都可以在同一个环境中进行管理。
高管要点
对于首席信息官和云总监而言,IBM 的无服务器集群代表着向云弹性及其处理高性能计算能力迈出的重要一步。该模型至少可以降低 GPU 密集型工作负载的准入门槛,尤其对于那些缺乏现成 DevOps 的团队而言。然而,在采用该模型之前,领导者或许可以考虑以下部分或全部因素:
- 按需GPU模式与预留容量模式的成本对比如何?
- 治理和数据安全是决定性因素吗?
- 是否有成本监控方法可以跟踪受管工作负载?
- 能否对示例工作负载进行试点,以测试可扩展性和可预测性?
- IBM提供的服务与其他超大规模数据中心运营商的类似解决方案相比,是更好/更便宜/更差/更贵?
- 这些工作负载是否适合在公司内部运行?从长远来看,这种选择的运营成本可能是多少?
无服务器 GPU 计算仍在发展中,但 IBM 的方法为企业提供了一种新的选择,使其能够在不考虑基础设施开销的情况下探索大规模 AI 和模拟工作负载。

