Google TorchTPU 支持原生 PyTorch AI 执行

Google 推出了TorchTPU，这是一个工程堆栈，使 PyTorch 工作负载能够在面向企业 AI 的 TPU 基础设施上原生运行。

机器学习领域的人才几乎普遍使用Python和PyTorch框架编写代码。然而，由于PyTorch与CUDA有着紧密的历史集成，传统上，要最大限度地发挥这些代码的性能，就必须将其与Nvidia GPU绑定。

这种软件对硬件的依赖迫使公司围绕单一供应商构建其计算基础设施，使它们容易受到供应链限制和高价的影响。

谷歌推出的 TorchTPU 打破了这种依赖关系。TorchTPU 旨在为 PyTorch 提供高性能的运行环境，使其能够在谷歌的张量处理单元 (TPU) 上原生运行，从而降低了切换计算服务提供商的工程难度。它承诺以最小的代码修改实现谷歌级别的执行能力，有效解决了大型组织内部人工智能部署面临的计算成本不断攀升的问题。

Google TorchTPU 支持原生 PyTorch AI 执行

“积极主动”执行模式

以前将 PyTorch 模型迁移到 TPU 需要使用桥接工具，这些工具常常会破坏功能，或者需要数周的密集重构。工程师必须将动态执行图转换为 TPU 可以理解的静态格式，这会减慢开发周期并引入软件错误。

TorchTPU 通过“即刻执行”的方式规避了这种摩擦。即刻执行会在 Python 调用操作时立即执行，而无需开发者构建复杂的计算图才能稍后执行。

数据科学家偏爱这种方法，因为它允许他们使用标准的 Python 调试工具并实时检查变量。TorchTPU 保留了这种工作流程，使开发人员能够逐行编写和调试代码，而系统则会自动处理底层硬件的复杂性。

TorchTPU 在底层使用了 XLA（加速线性代数）编译器。XLA 分析 PyTorch 代码，并针对大规模 TPU 集群上的分布式训练进行优化。通过处理集群分布，该技术栈使数据科学团队能够专注于模型架构，而不是硬件相关的优化。

展望 2026 年，该项目路线图明确以进一步减少编译开销为目标，确保大规模训练运行能够更快地开始，并减少计算周期的浪费。

将软件框架与硬件解耦

TorchTPU 为技术高管提供了计算方面的灵活性。过去三年，硬件供应严重受限于企业人工智能项目。如果一家公司无法获得特定图形处理器的配额，其开发流程就会完全停滞。

通过使 TPU 与业界最流行的机器学习编程语言原生兼容，谷歌提供了一种替代方案。团队可以将现有的 PyTorch 代码库移植到谷歌云，从而利用 TPU 的可用性以及可能更优惠的价格结构。这种互换性迫使云服务提供商在价格和性能方面展开竞争，而不是依赖软件锁定来留住客户。

这一发展符合编程生态系统的整体发展趋势，即业界正积极推进人工智能技术栈各层的标准化，以防止厂商垄断。例如，PyTorch 基金会最近扩展了其开源产品组合，将 Meta 的 Helion 和 Hugging Face 的 Safetensors 纳入其中。

这些新增功能规范了模型的部署方式以及权重的安全存储方式。Safetensors 取代了旧式的、不安全的 Python 格式化方式，以确保加载模型时不会执行恶意代码，而 Helion 则优化了远程过程调用。

当与 TorchTPU 结合使用时，这些开源工具创建了一个成熟且可互操作的软件供应链，该供应链不依赖于单一供应商的专有生态系统。

套利计算成本

训练前沿模型或针对专有企业数据微调现有开源权重通常会消耗IT部门创新预算的最大部分。当开发人员被迫重写数千行代码来测试不同的硬件时，人工成本和时间延误会抵消选择更便宜的计算服务提供商所带来的潜在节省。

代码变更极少的承诺改变了这种局面。IT 采购团队可以直接进行 A/B 测试：在竞争对手的 GPU 集群和 Google TPU 集群上运行相同的 PyTorch 模型。他们可以评估速度、能耗和总费用，并完全基于单位经济效益，做出关于生产工作负载托管位置的数据驱动决策。

这种原生兼容性也有助于人才的获取和留存。数据科学家通常更倾向于在 PyTorch 生态系统内工作，因为它拥有庞大的社区、完善的文档和丰富的预训练模型。强迫他们学习像 JAX 这样新的、特定于硬件的语言（尽管 JAX 在某些数学运算方面功能强大）往往会造成内部摩擦。

TorchTPU 使企业能够部署 Google 的高效硬件，而无需要求其工程人员学习全新的编程语法，从而保持士气并维持高部署速度。

通过利用 TorchTPU 等工具并在整个 PyTorch 生态系统中采用开源格式，工程部门可以构建可移植的软件系统。随着硬件市场持续碎片化，传统云服务提供商和独立芯片制造商不断推出新的定制芯片，这种灵活性将显得尤为重要。

Google TorchTPU 支持原生 PyTorch AI 执行

“积极主动”执行模式

将软件框架与硬件解耦

套利计算成本

相关推荐

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目