最佳温度范围是影响数据中心高效运行的关键因素。然而,随着许多国家进入极端高温时期,出现严重且日益严重的停电风险。
热浪可能导致数据中心组件过热和故障,导致运营商关闭服务器以防止损坏,从而导致停机和潜在的中断。
例如,2022年7月,伦敦创纪录的高温达到104华氏度(40摄氏度),导致冷却系统故障,导致谷歌和甲骨文数据中心下线。两个月后,酷热天气导致推特位于萨克拉门托地区的数据中心瘫痪。
敏感电子设备和硬件(例如服务器、存储设备和网络设备)中的各个组件都有特定的工作温度才能实现最佳运行。数据中心的建议温度范围可能低至65华氏度或高至95华氏度,在防止过热和设备潜在损坏方面起着关键作用。该范围由特定硬件目标的工作温度范围和该硬件可以运行的条件决定。
随着热浪越来越频繁,这将是一个反复出现且日益严重的问题,热浪加上停电,数据中心就离线了。温度波动始终是数据中心运营需要考虑的问题,而天气的预期范围并不是主要问题。
极端温度,尤其是高温,会给电网带来巨大压力,并可能增加当地生活用水的使用量,而这些用水量取决于冷却系统。当热浪来袭时,电力和水的使用量将根据系统和冷却技术类型而增加,从而给当地市场带来额外的压力。
确保热浪期间的连续性
如今全球都出现了极端高温,许多人都致力于确保数据中心能够继续运行。确保热浪期间连续性的关键利益相关者是现场设施经理,以及更广泛的设施团队,包括电工、机械工程师以及暖通空调专业人员。
此外,数据中心冷却拥有庞大的控制系统网络,需要稳定的电流来操作系统的各个组件,以确保调节后的空气以最佳方式流入数据中心空间。
数据中心运营商和支持这些设施的机械团队已经为一系列自然灾害和资源限制做好了计划。数据中心运营商随后与客户密切合作,以满足已发布或商定的服务水平协议(SLA)。
如果资源或自然灾害需要关闭或限制某些服务,可能还会与客户制定应急计划。过去几年最大的关注点是效率,尽可能有效地利用电力、冷却和水资源,并减少整个设施的浪费。这是通过提高数据中心温度、改进监控解决方案和智能楼宇管理系统以及改进配电和调节来实现的。
数据中心运营商越来越多地采用液体冷却技术,以进一步提高其设施的效率,同时在许多情况下在设施或IT设备层面转向闭环、“无水”冷却设计。所有这些都有助于数据中心更加高效地在日益严峻的条件下运行。
节能基础设施和更有效的冷却设计(例如液体冷却)是目前正在考虑的两种技术。高效数据中心电源管理的另一种有效但较少被探索的策略是减少主动管理的数据量。”
由于数据消耗了数据中心30%或更多的资源,并且80%的数据都是冷数据,因此高效的数据管理可以帮助减少数据中心三分之一的负担,甚至不需要对基础设施进行任何改造。
随着热浪频率的上升,再加上更高密度的人工智能处理器的热量输出更大,问题在两个方面变得更加复杂。
● 人工智能增加了数据中心的热量和电力消耗,使冷却挑战更加复杂。
● 人工智能使挑战复杂化,并提供解决方案。
人工智能的持续崛起将加剧这些挑战,但许多挑战也有助于解决保持数据中心在可接受的工作温度下运行的问题。
人工智能耗电量巨大,更多的人工智能处理会增加数据中心的热量输出和功耗,从而加剧这一问题。
一方面,在更密集的硬件配置下,模型训练和推理的AI工作负载需要大量的计算能力和能源。为AI模型和应用提供动力的服务器会产生大量热量,必须进行散热和冷却。
训练这些模型时会发生复杂的计算,需要更多资源密集型的硬件,从而提高模型的最佳运行整体功率。资源利用率和发电量的增加意味着数据中心内会产生更多的热量,从而给冷却系统带来压力。此外,人工智能算法和模型的动态特性可能会导致电力需求和热量产生的激增,而传统的冷却系统可能难以跟上。
考虑到过去一年来为了满足对LLM的巨大需求而对集中式数据中心建设的巨额投资,我预计电网的压力将会增加。
虽然人工智能工作负载的增加,为保持数据中心的最佳运行温度带来了更多挑战,但它也可以成为解决问题的良方。
这可以包括优化热性能管理的人工智能,包括液体冷却或气流的需求流和冷却系统的预测性维护。
随着热浪的增加,人工智能还可以用于为实时天气和长期环境模式的系统提供动力,从而根据外部因素自动调整能源消耗和冷却系统。
评论一下?