L'智慧 人工智慧應用於冷卻 數據中心是工業能源最佳化領域 中最重要的創新之一。
由GoogleDeepMind 開發的自主系統自 2018 年起開始運作,展示了人工智能如何改變關鍵基礎設施的熱能管理,在運作效率方面取得了具體成果。
全球能源效率專家 Jonathan Koomey 表示,現代資料中心是巨大的能源消耗者,其中冷卻約佔總耗電量的 10%。每隔五分鐘,Google 的雲端 AI 系統就會從數千個感應器中擷取冷卻系統的快照安全第一的 AI 用於自主資料中心冷卻與工業控制 - Google DeepMind,分析操作複雜性,挑戰傳統的控制方法。
Google 的 AI 冷卻系統使用深度神經網路來預測不同動作組合對未來能源消耗的影響,找出哪些動作可以在滿足穩健安全限制的同時,將消耗降至最低DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind
在冷卻最佳化方面所取得的成果相當顯著:系統能夠持續將冷卻所使用的能源減少 40%。然而,考慮到冷卻約佔總消耗量的 10%,這也就相當於資料中心整體節能約 4%。
根據Jim Gao 的原始技術論文,神經網路達到平均絕對誤差 0.004 和標準偏差 0.005,相當於 PUE 為 1.1 時誤差為 0.4%。
在三個特定的資料中心正式確認了 AI 系統的實施:
新加坡:2016 年首次進行重大部署,該資料中心使用回收水進行冷卻,並證明冷卻能源減少了 40%。
荷蘭 Eemshaven:該資料中心使用工業用水,2023 年的耗水量為 2.32 億加侖。該設施的現場主管 Marco Ynema 負責監督這座先進設施的運作。
愛荷華州 Council Bluffs:MIT Technology Review 在討論 AI 系統時,特別展示了 Council Bluffs 資料中心。Google 在 Council Bluffs 的兩個園區投資了 50 億美元,2023 年的耗水量為 9.801 億加侖。
以雲端為基礎的 AI 控制系統目前已開始運作,並在多個 Google 資料中心提供節能效果,但該公司尚未公布使用該技術的完整設施清單。
根據專利 US20180204116A1,該系統使用具有精確技術特性的深度學習架構:
此架構使用與深度神經網路整合的線性 ARX 模型的模型預測控制 (Model Predictive Control)。神經網路不需要使用者預先定義模型中變數之間的互動。相反,神經網路會搜尋模式和特徵之間的互動,自動產生最佳模型。
PUE 代表資料中心的基本能源效率:
PUE = 資料中心總能源/IT 設備能源
Google 擁有 ISO 50001 能源管理認證,該認證保證了嚴格的作業標準,但並沒有具體驗證 AI 系統的效能。
這項創新的核心是預測控制,可預測未來一小時內資料中心的溫度和壓力,模擬建議的動作,以確保不會超出運作限制。
經過嘗試和錯誤之後,這些模型現在在預測 PUE 方面的準確度達到 99.6%。此準確度可實現傳統方法無法達到的最佳化,同時處理機械、電力和環境系統之間複雜的非線性互動。
其中一個重要的方面是進化學習能力。在九個月的時間裡,系統的效能從最初推出時的 12% 提升到約 30%。
Google 操作員 Dan Fuenffinger 表示:「看到 AI 學會利用冬季條件製造出比平常更冷的水,實在令人驚訝。規則不會隨著時間而改進,但 AI 會。
系統可同時管理19 個重要的操作參數:
操作安全性透過備援機制來確保。人工智能計算出的最佳行動會根據操作員定義的安全限制內部清單進行檢查。一旦傳送到實體資料中心,當地控制系統會重新檢查指令DeepMind AI 可將 Google 資料中心的冷卻能耗降低 40%。
操作員始終保留控制權,並可隨時退出 AI 模式,無縫轉換至傳統規則。
業界意識到 Power Usage Effectiveness 作為標準的局限性。2014 年 Uptime Institute 的調查發現,75% 的受訪者認為產業需要一個新的效率指標。問題包括氣候偏差(不可能比較不同的氣候)、時間操控(在最佳條件下進行測量)和元件排除。
每個資料中心都有其獨特的架構和環境。一個系統的客製化模型可能不適用於另一個系統,因此需要一般智慧型架構。
模型的精確度取決於輸入數據的質量。由於相應的訓練資料稀少,當 PUE 值高於 1.14 時,模型誤差通常會增加。
沒有發現由主要審計公司或國家實驗室進行的獨立審計,Google「沒有進行超出聯邦最低要求的第三方審計」。
在 2024-2025 年,Google 大幅將重點轉移到:
這種變化表明,對於現代人工智能應用的熱負載而言,人工智能優化已經達到了實際的極限。
AI 優化製冷的應用已延伸至資料中心以外的領域:
製冷系統的節能結果如下
第 1 階段 - 評估:現有系統的能源稽核與繪圖第2 階段 - 試用:在受控環境中對有限區段進行測試第3 階段 - 部署:密集監控下的逐步推展第4 階段 - 最佳化:持續調整與容量擴充
三個資料中心已正式確認:新加坡 (2016 年首次部署)、荷蘭的 Eemshaven 以及愛荷華州的 Council Bluffs。該系統已在多個 Google 資料中心運作,但完整清單從未公開披露。
該系統可將用於冷卻的能源減少 40%。考慮到冷卻約佔總消耗的 10%,整體節能約佔資料中心總消耗的 4%。
系統預測 PUE 的準確度達到 99.6%,平均絕對誤差為 0.004 ± 0.005,相當於 PUE 為 1.1 時誤差為 0.4%。如果真實 PUE 為 1.1,則 AI 的預測值在 1.096 和 1.104 之間。
它使用兩層驗證:首先 AI 檢查操作員定義的安全限制,然後本機系統再次檢查指令。操作員可以隨時停用 AI 檢查,並返回傳統系統。
實施通常需要 6-18 個月:3-6 個月用於資料收集和模型訓練,2-4 個月用於試點測試,3-8 個月用於分階段部署。複雜度會因現有基礎架構的不同而有顯著差異。
需要一個擁有資料科學/AI、HVAC 工程、設施管理、網路安全和系統整合等專業知識的跨領域團隊。許多公司選擇與專業供應商合作。
是的,人工智能會自動學習利用季節性條件,例如在冬季生產較冷的水以減少冷卻能源。該系統透過識別天氣和氣候模式持續改進。
每個資料中心都有獨特的架構和環境,需要大量的客製化。實施的複雜性、對特定資料的需求以及所需的專業知識,讓直效行銷變得複雜。八年過去了,這項技術仍然是 Google 的獨家內部技術。
未找到大型審計公司(Deloitte、PwC、KPMG)或國家實驗室的獨立審計。Google 擁有 ISO 50001 認證,但「不追求」聯邦最低要求以外的第三方稽核。
絕對可以。用於冷卻的 AI 優化技術可應用於工業廠房、購物中心、醫院、企業辦公室以及任何具有複雜 HVAC 系統的設施。多變量最佳化和預測控制的原則是普遍適用的。
Google DeepMind AI 冷卻系統是一項工程創新,可在特定領域內實現逐步改善。對於營運能源密集型基礎設施的公司而言,這項技術提供了冷卻最佳化的具體機會,儘管也強調了規模上的限制。
主要資料來源: Jim Gao Google 研究論文、DeepMind 官方部落格、MIT Technology Review、專利 US20180204116A1