AI的蓬勃发展以及对数据中心电力和冷却方式的重新思考

人工智能如今已成为全球数据中心扩张的驱动力，遍及欧洲、中东和非洲。在欧洲，据预测，到2030年，数据中心容量的复合增长率将达到25%，超过过去十年公共云基础设施转型所带来的增长。

人工智能的蓬勃发展以及对数据中心电力和冷却方式的重新思考

人工智能工作负载改变了数据中心的设计，大型语言模型和其他人工智能系统比许多企业级工作负载消耗更多电力并产生更多热量。原本基于较低机架密度规划的设施，如今面临着可能超出先前预期的需求。对于托管服务提供商、云公司和数据中心运营商而言，这带来了工程、交付和成本方面的难题。人工智能就绪型容量的部署必须在电网可用性、光纤基础设施、许可、监管和可持续性报告等限制范围内进行。运营商还必须保障正常运行时间和站点经济效益。

该方案应涵盖从电网连接到处理器的整个电源链。网格到芯片模型将电源转换、分配和冷却整合到一个设计中，而不是将每一层都视为独立的系统。

产能需求和基础设施限制

这些限制往往在建设之前就已存在。在许多地区，数据中心需要先升级电网连接和光纤网络才能达到所需的运行水平。规划和审批流程可能会延缓这些工程的进度，而地方法规也可能限制设施的建设地点。

数据中心内部的压力也在发生变化。机架通常以 5kW 到 10kW 的密度运行，但人工智能工作负载已经将一些机架的密度推高到 100kW 以上，预计到 2028 年将达到 1.2MW。在这样的密度下，电力分配和散热就成了设计难题。

为低密度工作负载而设计的机房可能无法应对更高的电流、更大的发热量以及IT设备与冷却系统之间更紧密的联系。因此，运营商必须将电力分配、散热管理和能源效率作为一个整体系统来考虑。

网格到芯片设计

从电网到芯片的理念基于这样一个前提：能量传输路径的每个环节都会产生损耗。在高密度人工智能环境中，即使是微小的转换效率损失也会导致更大的能量损耗和额外的热量。这些热量会增加冷却需求，从而增加设备的负荷。

高效模型着重于减少电网与处理器之间的损耗，结合了专为高密度计算设计的高电压分配、功率转换和冷却系统。高电压分配可以降低电流损耗和电阻损耗，而减少转换步骤则可以提高效率。

同样的逻辑也适用于运营。嵌入式人工智能和机器学习系统用于调节冷却系统、监控不间断电源和电池，并支持能源协调。如果目标是降低能耗、延长设备寿命和提高正常运行时间，那么遵循简单规则的大规模部署每年可以节省数百万美元的电力成本。当然，最终结果取决于场地规模、能源价格、负荷曲线以及被替换系统的性质。

设计参数的改变标志着优化方式从孤立的系统转向一体化。电源、散热和IT系统通常由不同的团队或供应商分别负责，但在人工智能设施中，这种分离会导致效率提升无法得到充分利用，并使散热更加难以控制。更集成化的设计旨在将电源更靠近机架，并使散热能力与GPU集群的散热特性相匹配。

模块化建造

模块化数据中心在人工智能项目中日益重要，其应用范围涵盖从单机架系统到集装箱式单元。模块化设计允许分阶段增加容量，从而降低容量超出需求的风险，同时为运营商提供了一种在大型设施或电网工程完工前部署基础设施的方法。

主要优势在于速度。模块化单元在运抵现场前进行预制和测试，从而减少了数据中心现场的施工工作量。对于需求变化迅速的人工智能服务而言，分阶段部署可能比一次性大规模建设更为实用。

一家欧洲电信运营商使用预制模块化数据中心扩展其5G边缘网络，预计建设周期约为2.5年，而采用模块化部署则可在16个月内投入运营。通过提高能源效率降低运营成本，同时提升正常运行时间和网络弹性，可获得显著收益。

模块化并不能消除所有限制。即使是集装箱式基础设施，某些场地仍然会面临规划或监管方面的限制。在这种情况下，模块化系统可能需要外部覆层或其他改造，以满足当地的要求。

人工智能正在增加机架功耗和发热量，因此需要更紧密地协调电力和冷却系统。数据中心运营商必须决定是调整现有设计，还是从一开始就围绕集成式高密度基础设施规划新项目。随着GPU系统的演进，电网接入、能源效率和部署速度很可能仍然是人工智能容量增长的制约因素。

AI的蓬勃发展以及对数据中心电力和冷却方式的重新思考

产能需求和基础设施限制

网格到芯片设计

模块化建造

相关推荐

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目