應用於資料中心冷卻的人工智慧代表了工業能源最佳化領域中最重要的創新之一。
由 Google DeepMind 開發的自主系統自 2018 年起開始運作,展示了人工智能如何改變關鍵基礎設施的熱能管理,在運作效率方面取得了具體成果。
創新改變資料中心
能源效率問題
全球能源效率專家 Jonathan Koomey 表示,現代資料中心是巨大的能源消耗者,其中冷卻約佔總耗電量的 10%。每隔五分鐘,Google 的雲端 AI 系統就會從數千個感應器中擷取冷卻系統的快照安全第一的 AI 用於自主資料中心冷卻與工業控制 - Google DeepMind,分析操作複雜性,挑戰傳統的控制方法。
Google 的 AI 冷卻系統使用深度神經網路來預測不同動作組合對未來能源消耗的影響,找出哪些動作可以在滿足穩健安全限制的同時,將消耗降至最低DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind
具體且可衡量的結果
在冷卻最佳化方面取得的成果相當顯著:系統能夠持續將用於冷卻的能源減少 40%DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind。然而,考慮到冷卻約佔總消耗量的 10%,這也就相當於資料中心整體節能約 4%。
根據Jim Gao 的原始技術論文,神經網路達到平均絕對誤差為 0.004,標準差為 0.005,相當於 PUE 為 1.1 時誤差為 0.4%- Google DeepMind。
工作地點:已確認的資料中心
已驗證的實施
在三個特定的資料中心正式確認了 AI 系統的實施:
新加坡:2016 年的首次重要部署,數據中心使用回收水進行冷卻首頁 - Google 數據中心,並證明冷卻能源減少了 40%。
荷蘭 Eemshaven:該資料中心使用工業用水,2023 年耗水量為 2.32 億加侖主頁 - Google 資料中心。該設施的場地主管 Marco Ynema 負責監督這座先進設施的運作。
愛荷華州 Council Bluffs:《麻省理工科技評論》在討論Google Cloud 的資料中心位置:區域與可用區 - Dgtl Infra 時,特別展示了 Council Bluffs 資料中心。Google在Council Bluffs的兩個校區投資了50億美元,2023年消耗了9.801億加侖的水| Scientific American.
一個以雲端為基礎的 AI 控制系統已開始運作,並在多個資料中心提供節能效果 GoogleSmart Liquid Cooling: Beating Google on Efficiency | ProphetStor,但該公司尚未公布使用該技術的完整設施清單。
技術架構:如何運作
深度神經網路與機器學習
根據專利 US20180204116A1,該系統使用具有精確技術特性的深度學習架構:
- 5 個隱藏層,每層 50 個節點
- 19 個標準化輸入變數,包括熱負載、天氣狀況、設備狀態
- 5 分鐘解析度的184,435 個訓練樣本(約 2 年的作業資料)
- 正則參數:0.001 以防止過度擬合
此架構使用與深度神經網路整合的線性 ARX 模型的模型預測控制 (Model Predictive Control)。神經網路不需要使用者事先定義模型中變數間的互動關係。相反,神經網路會搜尋模式和特徵之間的互動,自動產生最佳模型DeepMind AI 讓 Google 資料中心的冷卻費用降低 40% - Google DeepMind。
電源使用效率 (PUE):關鍵指標
PUE 代表資料中心的基本能源效率:
PUE = 資料中心總能源/IT 設備能源
- 整個 Google 機組的 PUE:2024 年為 1.09 (根據 Google 環境報告)
- 工業平均值:1.56-1.58
- 理想 PUE:1.0 (理論上不可能)
Google 擁有 ISO 50001 能源管理認證,該認證保證了嚴格的作業標準,但並沒有具體驗證 AI 系統的效能。
模型預測控制 (MPC)
這項創新的核心是預測控制,可預測未來一小時內資料中心的溫度和壓力,模擬建議的動作,以確保不會超出操作限制DeepMind AI 讓 Google 資料中心的冷卻費用降低 40% - Google DeepMind
人工智能在冷卻領域的運作優勢
優異的預測精確度
經過不斷的試驗與錯誤,這些模型目前在預測 PUE方面的準確度已達 99.6%資料中心最佳化的機器學習應用。這種精確度可實現傳統方法無法達到的最佳化,同時處理機械、電力和環境系統之間複雜的非線性互動。
持續學習與適應
一個重要的方面是進化學習能力。在九個月的時間裡,系統的效能從最初推出時的 12% 提升到約 30% 的提升,資料中心優化 Jim Gao,Google - DocsLib。
Google 操作員 Dan Fuenffinger 表示:「看到 AI 學會利用冬季條件製造比平常更冷的水,實在令人驚訝。資料中心冷卻採用模型預測控制。
多重變數最佳化
系統可同時管理19 個重要的操作參數:
- 伺服器和網路的總 IT 負載
- 天氣狀況(溫度、濕度、熱焓)
- 設備狀態(冷卻機、冷卻塔、幫浦)
- 設定點和操作控制
- 風扇轉速和 VFD 系統
安全與控制:故障安全保證
多層驗證
操作安全性透過備援機制來確保。人工智能計算出的最佳行動會根據操作員定義的安全限制內部清單進行檢查。一旦傳送到實體資料中心,當地控制系統會重新檢查指令DeepMind AI 可將 Google 資料中心的冷卻能耗降低 40%。
操作人員可隨時保持控制,並可隨時退出 AI 模式,無縫轉換至傳統規則DeepMind AI 可將 Google 資料中心冷卻所使用的能源減少 40%。
限制與方法上的考量
PUE 量測與限制
業界意識到 Power Usage Effectiveness 作為標準的局限性。2014 年 Uptime Institute 的調查發現,75% 的受訪者認為產業需要一個新的效率指標。問題包括氣候偏差(不可能比較不同的氣候)、時間操控(在最佳條件下進行測量)和元件排除。
實施的複雜性
每個資料中心都有其獨特的架構和環境。為一個系統量身打造的模型可能不適用於另一個系統,這就需要一個通用的智慧框架DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind。
資料品質與驗證
模型的精確度取決於輸入數據的質量。由於相對應的訓練資料稀少,當 PUE 值高於 1.14 時,模型誤差通常會增加DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind。
沒有發現由主要審計公司或國家實驗室進行的獨立審計,Google「沒有進行超出聯邦最低要求的第三方審計」。
未來:朝液態冷卻演進
技術轉型
在 2024-2025 年,Google 大幅將重點轉移到:
- 適用於 1MW 機架的 +/-400 VDC 供電系統
- 「德舒特斯計畫」冷卻分配裝置
- TPU v5p 的直接液體冷卻,「99.999% 正常運作時間」。
這種變化表明,對於現代人工智能應用的熱負載而言,人工智能優化已經達到了實際的極限。
新興趨勢
- 邊緣運算整合:降低延遲的分散式 AI
- 數位姊妹:用於進階模擬的數位姊妹
- 永續性焦點: 可再生能源的最佳化
- 混合冷卻: AI 最佳化液體/空氣組合
公司的應用與機會
應用領域
AI 優化製冷的應用已延伸至資料中心以外的領域:
- 工業廠房: 製造 HVAC 系統的最佳化
- 購物中心:智慧型氣候管理
- 醫院:手術室和關鍵區域的環境控制
- 企業辦公室:智慧型建築與設施管理
投資報酬率與經濟效益
製冷系統的節能結果如下
- 降低冷卻子系統運作成本
- 改善環境永續性
- 設備壽命延長
- 提高運作可靠性
公司的策略實施
採用路線圖
第 1 階段 - 評估:現有系統的能源稽核與繪圖第2 階段 - 試用:在受控環境中對有限區段進行測試第3 階段 - 部署:密集監控下的逐步推展第4 階段 - 最佳化:持續調整與容量擴充
技術考慮因素
- 感測器基礎架構:完整的監控網路
- 團隊技能:資料科學、設施管理、網路安全
- 整合:與傳統系統相容
- 合規性:安全與環境法規
FAQ - 常見問題
1.AI 系統到底是在哪些 Google 資料中心運作?
三個資料中心已正式確認:新加坡(2016 年首次部署)、荷蘭的 Eemshaven 以及愛荷華州的 Council Bluffs。該系統已在多個資料中心運作 GoogleSmart Liquid Cooling: Beating Google on Efficiency | ProphetStor,但完整清單從未公開披露。
2.它在總消耗量上到底能節省多少能源?
該系統實現了將用於冷卻的能源減少 40%DeepMind AI 將 Google 數據中心的冷卻費用降低了 40% - Google DeepMind。考慮到冷卻約佔總消耗的 10%,整體節能約佔資料中心總消耗的 4%。
3.系統預測的準確度如何?
該系統預測 PUE 的準確率達 99.6%,平均絕對誤差為 0.004 ± 0.005,相當於 PUE 為 1.1 時Google DeepMindGoogleResearch 的誤差為 0.4%。若真實 PUE 為 1.1,則 AI 的預測值為 1.096 至 1.104。
4.您如何確保作業安全?
它使用兩層驗證:首先由 AI 檢查操作員定義的安全限制,然後由本地系統再次檢查指令。操作員可以隨時停用 AI 檢查,回到傳統系統DeepMind AI 可將 Google 資料中心的冷卻能源使用量降低 40%。
5.實施這樣的系統需要多長時間?
實施通常需要 6-18 個月:3-6 個月用於資料收集和模型訓練,2-4 個月用於試點測試,3-8 個月用於分階段部署。複雜度會因現有基礎架構的不同而有顯著差異。
6.需要哪些技術技能?
需要一個擁有資料科學/AI、HVAC 工程、設施管理、網路安全和系統整合等專業知識的跨領域團隊。許多公司選擇與專業供應商合作。
7.系統能否適應季節變化?
是的,人工智能會自動學習利用季節性條件,例如在冬季產生較冷的水,以減少冷卻能源數據中心冷卻使用模型預測控制。該系統透過識別時間和天氣模式持續改進。
8.為什麼 Google 不將這項技術商業化?
每個資料中心都有獨特的架構和環境,需要大量的客製化 DeepMind AI 將 Google 資料中心的冷卻費用降低 40% - Google DeepMind。執行的複雜性、對特定資料的需求以及所需的專業知識,讓直效行銷變得複雜。8 年之後,這項技術仍然只屬於 Google 內部專用。
9.是否有獨立的績效評核?
未找到大型審計公司(Deloitte、PwC、KPMG)或國家實驗室的獨立審計。Google 擁有 ISO 50001 認證,但「不追求」聯邦最低要求以外的第三方稽核。
10.它是否適用於數據中心以外的其他行業?
絕對可以。用於冷卻的 AI 優化技術可應用於工業廠房、購物中心、醫院、企業辦公室以及任何具有複雜 HVAC 系統的設施。多變量最佳化和預測控制的原則是普遍適用的。
Google DeepMind AI 冷卻系統是一項工程創新,可在特定領域內實現逐步改善。對於營運能源密集型基礎設施的公司而言,這項技術提供了冷卻最佳化的具體機會,儘管也強調了規模上的限制。
主要資料來源: Jim Gao Google 研究論文、DeepMind 官方部落格、MIT Technology Review、專利 US20180204116A1


