用心打造
VPS知识分享网站

软银发布 Infrinia AI Cloud OS:面向 AI 数据中心的软件栈平台

日本软银集团推出了专为人工智能数据中心设计的软件栈平台 Infrinia AI Cloud OS
该系统由软银旗下 Infrinia 团队开发,面向 GPU 云基础设施场景,主要用于支持多租户环境下的数据中心运营与 AI 服务交付。

平台支持在数据中心环境中提供 Kubernetes 即服务(KaaS)与推理即服务(InfaaS),使运营商能够通过统一接口向客户提供模型训练与推理能力。用户可通过 API 方式访问大模型推理服务,并与现有 GPU 云服务体系直接集成,而无需自行搭建完整 AI 基础设施环境。

软银发布 Infrinia AI Cloud OS:面向 AI 数据中心的软件栈平台

面向 AI 云服务的基础平台能力

Infrinia AI Cloud OS 的目标,是降低 GPU 云服务在建设与运营过程中的复杂度,并减少整体拥有成本。

与企业自研系统或高度定制化平台相比,该软件栈通过统一架构方式,实现:

  • GPU 集群管理标准化
  • 资源调度自动化
  • 运维流程平台化
  • 服务交付接口统一化

平台覆盖 AI 生命周期的多个阶段,包括模型训练、模型部署以及在线推理服务调用。

软银计划首先将该系统整合至自身 GPU 云产品体系中,并逐步推广至海外数据中心和其他云平台环境,实现跨区域部署能力。

GPU 云需求的结构性变化

当前基于 GPU 的 AI 基础设施需求呈现出明显分层特征:

  • 部分用户需要完整托管的 GPU 集群环境
  • 部分用户只关注推理能力的使用,不参与 GPU 管理
  • 部分场景采用集中训练与边缘推理结合的部署模式

不同业务场景对 GPU 云服务的管理方式和交付模式要求存在明显差异。

Infrinia AI Cloud OS 的设计目标,是在统一平台架构下支持多种部署模式,使不同类型用户能够基于同一系统获取所需能力,而无需采用不同平台体系。

核心功能结构

Kubernetes 即服务(KaaS)

平台通过 KaaS 模块实现基础设施自动化管理,覆盖:

  • 服务器资源初始化
  • 存储系统配置
  • 网络结构调度
  • Kubernetes 集群部署与生命周期管理

该能力使 GPU 数据中心的底层资源管理过程平台化,减少人工配置与重复部署工作。

GPU 集群动态管理能力

系统支持 GPU 集群的动态构建与调整,包括:

  • GPU 集群快速创建
  • 集群规模动态扩展
  • 集群资源重组
  • 工作负载迁移调度

在硬件层面,系统基于 GPU 物理连接结构与 NVIDIA NVLink 域进行节点调度优化,以降低通信延迟并提升分布式计算效率。

推理即服务(InfaaS)

InfaaS 模块为用户提供统一的推理服务接口,使用户无需直接管理 GPU 资源即可调用模型推理能力。

平台支持:

  • 模型快速部署
  • 推理服务接口统一接入
  • 弹性算力调度
  • 托管式推理服务管理

该模式将 GPU 云服务从资源交付转向能力交付。

对数据中心运营的影响

对数据中心运营商而言,该平台的核心价值体现在:

  • 降低部署门槛
  • 减少运维复杂度
  • 提升系统可扩展性
  • 统一服务交付模型
  • 提高规模复制能力

通过软件栈统一架构方式,使 GPU 云基础设施具备平台化运营能力。

软银的产业布局方向

从整体布局来看,软银正在将布局重心从单一算力服务提供,转向 AI 数据中心的软件平台层。

Infrinia AI Cloud OS 的推出,使软银在 AI 基础设施体系中不仅参与算力供给,也参与系统架构与平台层能力建设。

该模式有助于形成跨数据中心部署的统一软件架构体系,为不同地区的数据中心提供统一的 AI 基础设施管理平台。

Infrinia AI Cloud OS 是一套面向 AI 数据中心的基础平台型软件栈,重点解决 GPU 云服务在管理、部署与服务交付层面的复杂性问题。

该系统通过 KaaS 与 InfaaS 模式,实现 GPU 资源管理平台化、服务交付接口化和运维流程标准化,覆盖模型训练与推理等核心场景。

其核心价值在于提升 AI 基础设施的规模化部署能力和运营效率,而非单一性能指标的提升。

赞(0)
未经允许不得转载;国外VPS测评网 » 软银发布 Infrinia AI Cloud OS:面向 AI 数据中心的软件栈平台
分享到