日本软银集团推出了专为人工智能数据中心设计的软件栈平台 Infrinia AI Cloud OS。
该系统由软银旗下 Infrinia 团队开发,面向 GPU 云基础设施场景,主要用于支持多租户环境下的数据中心运营与 AI 服务交付。
平台支持在数据中心环境中提供 Kubernetes 即服务(KaaS)与推理即服务(InfaaS),使运营商能够通过统一接口向客户提供模型训练与推理能力。用户可通过 API 方式访问大模型推理服务,并与现有 GPU 云服务体系直接集成,而无需自行搭建完整 AI 基础设施环境。

面向 AI 云服务的基础平台能力
Infrinia AI Cloud OS 的目标,是降低 GPU 云服务在建设与运营过程中的复杂度,并减少整体拥有成本。
与企业自研系统或高度定制化平台相比,该软件栈通过统一架构方式,实现:
- GPU 集群管理标准化
- 资源调度自动化
- 运维流程平台化
- 服务交付接口统一化
平台覆盖 AI 生命周期的多个阶段,包括模型训练、模型部署以及在线推理服务调用。
软银计划首先将该系统整合至自身 GPU 云产品体系中,并逐步推广至海外数据中心和其他云平台环境,实现跨区域部署能力。
GPU 云需求的结构性变化
当前基于 GPU 的 AI 基础设施需求呈现出明显分层特征:
- 部分用户需要完整托管的 GPU 集群环境
- 部分用户只关注推理能力的使用,不参与 GPU 管理
- 部分场景采用集中训练与边缘推理结合的部署模式
不同业务场景对 GPU 云服务的管理方式和交付模式要求存在明显差异。
Infrinia AI Cloud OS 的设计目标,是在统一平台架构下支持多种部署模式,使不同类型用户能够基于同一系统获取所需能力,而无需采用不同平台体系。
核心功能结构
Kubernetes 即服务(KaaS)
平台通过 KaaS 模块实现基础设施自动化管理,覆盖:
- 服务器资源初始化
- 存储系统配置
- 网络结构调度
- Kubernetes 集群部署与生命周期管理
该能力使 GPU 数据中心的底层资源管理过程平台化,减少人工配置与重复部署工作。
GPU 集群动态管理能力
系统支持 GPU 集群的动态构建与调整,包括:
- GPU 集群快速创建
- 集群规模动态扩展
- 集群资源重组
- 工作负载迁移调度
在硬件层面,系统基于 GPU 物理连接结构与 NVIDIA NVLink 域进行节点调度优化,以降低通信延迟并提升分布式计算效率。
推理即服务(InfaaS)
InfaaS 模块为用户提供统一的推理服务接口,使用户无需直接管理 GPU 资源即可调用模型推理能力。
平台支持:
- 模型快速部署
- 推理服务接口统一接入
- 弹性算力调度
- 托管式推理服务管理
该模式将 GPU 云服务从资源交付转向能力交付。
对数据中心运营的影响
对数据中心运营商而言,该平台的核心价值体现在:
- 降低部署门槛
- 减少运维复杂度
- 提升系统可扩展性
- 统一服务交付模型
- 提高规模复制能力
通过软件栈统一架构方式,使 GPU 云基础设施具备平台化运营能力。
软银的产业布局方向
从整体布局来看,软银正在将布局重心从单一算力服务提供,转向 AI 数据中心的软件平台层。
Infrinia AI Cloud OS 的推出,使软银在 AI 基础设施体系中不仅参与算力供给,也参与系统架构与平台层能力建设。
该模式有助于形成跨数据中心部署的统一软件架构体系,为不同地区的数据中心提供统一的 AI 基础设施管理平台。
Infrinia AI Cloud OS 是一套面向 AI 数据中心的基础平台型软件栈,重点解决 GPU 云服务在管理、部署与服务交付层面的复杂性问题。
该系统通过 KaaS 与 InfaaS 模式,实现 GPU 资源管理平台化、服务交付接口化和运维流程标准化,覆盖模型训练与推理等核心场景。
其核心价值在于提升 AI 基础设施的规模化部署能力和运营效率,而非单一性能指标的提升。

