業務

Google DeepMind AI 冷卻系統:人工智慧如何革新資料中心能源效率

Google DeepMind 透過 5 層深度學習、50 個節點、19 個輸入變數,在 184,435 個訓練樣本 (2 年資料) 上實現了 -40% 的資料中心冷卻能源 (但總消耗僅為 -4%,因為冷卻佔總消耗的 10%)-準確度 99.6%,PUE 1.1 的誤差為 0.4%。已在 3 個設施中確認:新加坡 (2016 年首次部署)、Eemshaven、Council Bluffs (50 億美元投資)。模型預測控制 (Model Predictive Control) 可同時管理 IT 負載、天氣、設備狀態,預測下一小時的溫度/壓力。安全性保證:雙層驗證,操作員可隨時停用 AI。關鍵限制:無審計公司/國家實驗室的獨立驗證,每個資料中心都需要客製化模型(8 年來從未商業化)。實施時間為 6-18 個月,需要跨領域團隊(資料科學、HVAC、設備管理)。適用範圍超越資料中心:工廠、醫院、購物中心、企業辦公室。2024-2025 年:Google 將 TPU v5p 轉換為直接液體冷卻,顯示 AI 最佳化的實際限制。

L'智慧 人工智慧應用於冷卻 數據中心是工業能源最佳化領域最重要的創新之一。

GoogleDeepMind 開發的自主系統自 2018 年起開始運作,展示了人工智能如何改變關鍵基礎設施的熱能管理,在運作效率方面取得了具體成果。

創新改變資料中心

能源效率問題

全球能源效率專家 Jonathan Koomey 表示,現代資料中心是巨大的能源消耗者,其中冷卻約佔總耗電量的 10%。每隔五分鐘,Google 的雲端 AI 系統就會從數千個感應器中擷取冷卻系統的快照安全第一的 AI 用於自主資料中心冷卻與工業控制 - Google DeepMind,分析操作複雜性,挑戰傳統的控制方法。

Google 的 AI 冷卻系統使用深度神經網路來預測不同動作組合對未來能源消耗的影響,找出哪些動作可以在滿足穩健安全限制的同時,將消耗降至最低DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind

具體且可衡量的結果

在冷卻最佳化方面所取得的成果相當顯著:系統能夠持續將冷卻所使用的能源減少 40%。然而,考慮到冷卻約佔總消耗量的 10%,這也就相當於資料中心整體節能約 4%。

根據Jim Gao 的原始技術論文,神經網路達到平均絕對誤差 0.004 和標準偏差 0.005,相當於 PUE 為 1.1 時誤差為 0.4%。

工作地點:已確認的資料中心

已驗證的實施

三個特定的資料中心正式確認了 AI 系統的實施:

新加坡:2016 年首次進行重大部署,該資料中心使用回收水進行冷卻,並證明冷卻能源減少了 40%。

荷蘭 Eemshaven:該資料中心使用工業用水,2023 年的耗水量為 2.32 億加侖。設施的現場主管 Marco Ynema 負責監督這座先進設施的運作。

愛荷華州 Council Bluffs:MIT Technology Review 在討論 AI 系統時,特別展示了 Council Bluffs 資料中心。Google 在 Council Bluffs 的兩個園區投資了 50 億美元,2023 年的耗水量為 9.801 億加侖。

以雲端為基礎的 AI 控制系統目前已開始運作,並在多個 Google 資料中心提供節能效果,但該公司尚未公布使用該技術的完整設施清單。

技術架構:如何運作

深度神經網路與機器學習

根據專利 US20180204116A1,該系統使用具有精確技術特性的深度學習架構

  • 5 個隱藏層,每層 50 個節點
  • 19 個標準化輸入變數,包括熱負載、天氣狀況、設備狀態
  • 5 分鐘解析度的184,435 個訓練樣本(約 2 年的作業資料)
  • 正則參數:0.001 以防止過度擬合

此架構使用與深度神經網路整合的線性 ARX 模型的模型預測控制 (Model Predictive Control)。神經網路不需要使用者預先定義模型中變數之間的互動。相反,神經網路會搜尋模式和特徵之間的互動,自動產生最佳模型。

電源使用效率 (PUE):關鍵指標

PUE 代表資料中心的基本能源效率

PUE = 資料中心總能源/IT 設備能源

  • 整個 Google 機組的 PUE:2024 年為 1.09 (根據 Google 環境報告)
  • 工業平均值:1.56-1.58
  • 理想 PUE:1.0 (理論上不可能)

Google 擁有 ISO 50001 能源管理認證,該認證保證了嚴格的作業標準,但並沒有具體驗證 AI 系統的效能。

模型預測控制 (MPC)

這項創新的核心是預測控制,可預測未來一小時內資料中心的溫度和壓力,模擬建議的動作,以確保不會超出運作限制。

人工智能在冷卻領域的運作優勢

優異的預測精確度

經過嘗試和錯誤之後,這些模型現在在預測 PUE 方面的準確度達到 99.6%。此準確度可實現傳統方法無法達到的最佳化,同時處理機械、電力和環境系統之間複雜的非線性互動。

持續學習與適應

其中一個重要的方面是進化學習能力。在九個月的時間裡,系統的效能從最初推出時的 12% 提升到約 30%。

Google 操作員 Dan Fuenffinger 表示:「看到 AI 學會利用冬季條件製造出比平常更冷的水,實在令人驚訝。規則不會隨著時間而改進,但 AI 會。

多重變數最佳化

系統可同時管理19 個重要的操作參數

  • 伺服器和網路的總 IT 負載
  • 天氣狀況(溫度、濕度、熱焓)
  • 設備狀態(冷卻機、冷卻塔、幫浦)
  • 設定點和操作控制
  • 風扇轉速和 VFD 系統

安全與控制:故障安全保證

多層驗證

操作安全性透過備援機制來確保。人工智能計算出的最佳行動會根據操作員定義的安全限制內部清單進行檢查。一旦傳送到實體資料中心,當地控制系統會重新檢查指令DeepMind AI 可將 Google 資料中心的冷卻能耗降低 40%

操作員始終保留控制權,並可隨時退出 AI 模式,無縫轉換至傳統規則。

限制與方法上的考量

PUE 量測與限制

業界意識到 Power Usage Effectiveness 作為標準的局限性。2014 年 Uptime Institute 的調查發現,75% 的受訪者認為產業需要一個新的效率指標。問題包括氣候偏差(不可能比較不同的氣候)、時間操控(在最佳條件下進行測量)和元件排除。

實施的複雜性

每個資料中心都有其獨特的架構和環境。一個系統的客製化模型可能不適用於另一個系統,因此需要一般智慧型架構。

資料品質與驗證

模型的精確度取決於輸入數據的質量。由於相應的訓練資料稀少,當 PUE 值高於 1.14 時,模型誤差通常會增加。

沒有發現由主要審計公司或國家實驗室進行的獨立審計,Google「沒有進行超出聯邦最低要求的第三方審計」。

未來:朝液態冷卻演進

技術轉型

在 2024-2025 年,Google 大幅將重點轉移到:

  • 適用於 1MW 機架的 +/-400 VDC 供電系統
  • 「德舒特斯計畫」冷卻分配裝置
  • TPU v5p 的直接液體冷卻,「99.999% 正常運作時間」。

這種變化表明,對於現代人工智能應用的熱負載而言,人工智能優化已經達到了實際的極限

新興趨勢

  • 邊緣運算整合:降低延遲的分散式 AI
  • 數位姊妹:用於進階模擬的數位姊妹
  • 永續性焦點: 可再生能源的最佳化
  • 混合冷卻: AI 最佳化液體/空氣組合

公司的應用與機會

應用領域

AI 優化製冷的應用已延伸至資料中心以外的領域:

  • 工業廠房: 製造 HVAC 系統的最佳化
  • 購物中心:智慧型氣候管理
  • 醫院:手術室和關鍵區域的環境控制
  • 企業辦公室:智慧型建築與設施管理

投資報酬率與經濟效益

製冷系統的節能結果如下

  • 降低冷卻子系統運作成本
  • 改善環境永續性
  • 設備壽命延長
  • 提高運作可靠性

公司的策略實施

採用路線圖

第 1 階段 - 評估:現有系統的能源稽核與繪圖第2 階段 - 試用:在受控環境中對有限區段進行測試第3 階段 - 部署:密集監控下的逐步推展第4 階段 - 最佳化:持續調整與容量擴充

技術考慮因素

  • 感測器基礎架構:完整的監控網路
  • 團隊技能:資料科學、設施管理、網路安全
  • 整合:與傳統系統相容
  • 合規性:安全與環境法規

FAQ - 常見問題

1.AI 系統到底是在哪些 Google 資料中心運作?

三個資料中心已正式確認:新加坡 (2016 年首次部署)、荷蘭的 Eemshaven 以及愛荷華州的 Council Bluffs。該系統已在多個 Google 資料中心運作,但完整清單從未公開披露。

2.它在總消耗量上到底能節省多少能源?

該系統可將用於冷卻的能源減少 40%。考慮到冷卻約佔總消耗的 10%,整體節能約佔資料中心總消耗的 4%。

3.系統預測的準確度如何?

系統預測 PUE 的準確度達到 99.6%,平均絕對誤差為 0.004 ± 0.005,相當於 PUE 為 1.1‍ 時誤差為 0.4%如果真實 PUE 為 1.1,則 AI 的預測值在 1.096 和 1.104 之間。

4.您如何確保作業安全?

它使用兩層驗證:首先 AI 檢查操作員定義的安全限制,然後本機系統再次檢查指令。操作員可以隨時停用 AI 檢查,並返回傳統系統。

5.實施這樣的系統需要多長時間?

實施通常需要 6-18 個月:3-6 個月用於資料收集和模型訓練,2-4 個月用於試點測試,3-8 個月用於分階段部署。複雜度會因現有基礎架構的不同而有顯著差異。

6.需要哪些技術技能?

需要一個擁有資料科學/AI、HVAC 工程、設施管理、網路安全和系統整合等專業知識的跨領域團隊。許多公司選擇與專業供應商合作。

7.系統能否適應季節變化?

是的,人工智能會自動學習利用季節性條件,例如在冬季生產較冷的水以減少冷卻能源。該系統透過識別天氣和氣候模式持續改進。

8.為什麼 Google 不將這項技術商業化?

每個資料中心都有獨特的架構和環境,需要大量的客製化。實施的複雜性、對特定資料的需求以及所需的專業知識,讓直效行銷變得複雜。八年過去了,這項技術仍然是 Google 的獨家內部技術。

9.是否有獨立的績效評核?

未找到大型審計公司(Deloitte、PwC、KPMG)或國家實驗室的獨立審計。Google 擁有 ISO 50001 認證,但「不追求」聯邦最低要求以外的第三方稽核。

10.它是否適用於數據中心以外的其他行業?

絕對可以。用於冷卻的 AI 優化技術可應用於工業廠房、購物中心、醫院、企業辦公室以及任何具有複雜 HVAC 系統的設施。多變量最佳化和預測控制的原則是普遍適用的。

Google DeepMind AI 冷卻系統是一項工程創新,可在特定領域內實現逐步改善。對於營運能源密集型基礎設施的公司而言,這項技術提供了冷卻最佳化的具體機會,儘管也強調了規模上的限制。

主要資料來源: Jim Gao Google 研究論文DeepMind 官方部落格MIT Technology Review專利 US20180204116A1