隨著5G、云計算、AIGC大模型等新技術(shù)蓬勃興起,數(shù)據(jù)中心作為我國數(shù)字經(jīng)濟飛速發(fā)展的基石和算力底座,兼具高能耗屬性,肩負著節(jié)能減碳的社會責任及適應(yīng)算力需求的持續(xù)增長。
國家工信部數(shù)據(jù)顯示,截至2022年底中國算力總規(guī)模超過150EFlops(每秒浮點運算次數(shù)),數(shù)據(jù)中心機架總規(guī)模超過650萬。根據(jù)Uptime Institute的數(shù)據(jù),截至2022年的全球中大型數(shù)據(jù)中心平均PUE(Power Usage Effectiveness,電源利用效率)為1.55,其中溫控制冷系統(tǒng)能耗占比為25%以上。
數(shù)據(jù)中心節(jié)能審查及能耗監(jiān)察趨向嚴格化
我國數(shù)據(jù)中心市場供需地域分布不均,東部數(shù)據(jù)算力供不應(yīng)求,西部地區(qū)算力供大于求,數(shù)據(jù)中心布局向西轉(zhuǎn)移,同時數(shù)據(jù)中心綠色節(jié)能發(fā)展已成趨勢。“雙碳”和“東數(shù)西算”的雙重政策下,全國新建大型、超大型數(shù)據(jù)中心平均PUE降到1.3以下,集群內(nèi)PUE要求東部≤1.25、西部≤1.2,先進示范工程≤1.15。國家強制標準GB 40879-2021《數(shù)據(jù)中心能效限定值及能效等級》正式發(fā)布,數(shù)據(jù)中心能效等級指標分別為1級(PUE≤1.2)、2級(PUE≤1.3)和3級(PUE≤1.5)。
與此同時,一線發(fā)達城市反而實行電費獎懲措施,對低效數(shù)據(jù)中心加強升級改造,力爭PUE不高于1.4,推進淘汰數(shù)據(jù)中心關(guān)停并轉(zhuǎn)。
降本增效,傳統(tǒng)人工調(diào)優(yōu)需要進一步解放
數(shù)據(jù)中心PUE是數(shù)據(jù)中心總耗電量(PDC, Power of Data Center)與IT設(shè)備耗電量(PIT, Power of IT)的比值,比值越趨近于1,表示一個數(shù)據(jù)中心的綠色化程度越高。數(shù)據(jù)中心總耗電量包含IT設(shè)備耗電量、溫控制冷系統(tǒng)設(shè)備耗電量、供配電設(shè)備耗電量及輔助系統(tǒng)的耗能。其中,溫控制冷系統(tǒng)作為數(shù)據(jù)中心能耗最大的輔助設(shè)備,電費支出成本在運營運行期間占30%~40%。
基于冷凍水系統(tǒng)的傳統(tǒng)BA群控系統(tǒng),依賴專家經(jīng)驗和人工手動操作調(diào)優(yōu),根據(jù)變?nèi)萘康睦淞啃枨蠓治龊晚憫?yīng)控制以及室外溫度變化,實現(xiàn)基于供需平衡的能效優(yōu)化。
傳統(tǒng)BA群控系統(tǒng)在運維階段能效優(yōu)化難度大,一方面制冷系統(tǒng)原理復雜,制冷設(shè)備種類及數(shù)量多,不同設(shè)備控制變量龐大且存在響應(yīng)延遲,單純依靠運維人員的專家經(jīng)驗依據(jù)室外的環(huán)境溫度和實時IT功率來動態(tài)調(diào)節(jié)響應(yīng)已經(jīng)無法滿足能耗進一步降低的要求。另一方面,由于制冷系統(tǒng)內(nèi)部和外部環(huán)境的動態(tài)特性(考慮天氣),一個系統(tǒng)運行的定制模型和規(guī)則并不能保證另一個系統(tǒng)的適用,且每個制冷設(shè)備的實際運行效率也存在差異。傳統(tǒng)BA群控系統(tǒng)的人工調(diào)節(jié)參數(shù)少,調(diào)節(jié)慢,效果不明顯,實時性低。
AI加持使能,更深層次的軟實力
數(shù)據(jù)中心開始應(yīng)用多種節(jié)能創(chuàng)新技術(shù),推進數(shù)據(jù)中心綠色節(jié)能,降低單位運行成本。比如,將傳統(tǒng)低溫冷凍水改為采用中高溫冷凍水,充分引入間接蒸發(fā)冷卻設(shè)備代替?zhèn)鹘y(tǒng)冷凍水,服務(wù)器液冷技術(shù)更是使數(shù)據(jù)中心PUE降低到了極致。同時,隨著大數(shù)據(jù)分析及AI技術(shù)的成熟應(yīng)用,基于服務(wù)器級負載響應(yīng)和溫度控制的iCooling@AI算法軟件調(diào)優(yōu)加持,使能傳統(tǒng)冷機群控系統(tǒng)和末端空調(diào)群控系統(tǒng)能夠?qū)崟r調(diào)節(jié),更頻繁更高效的尋找最佳PUE,助力運行PUE接近設(shè)計PUE。
相比硬件設(shè)備的創(chuàng)新,華為iCooling軟件調(diào)優(yōu)節(jié)省投資,易交付,PUE節(jié)能見效快,投資回收期普遍<2年。
華為iCooling首先通過融合深度學習算法+能源大模型,利用華為自有數(shù)據(jù)中心大批量高質(zhì)量的運行數(shù)據(jù),基于昇騰底座的超大規(guī)模模型建模及訓練調(diào)優(yōu)的能力,根據(jù)系統(tǒng)運行的歷史數(shù)據(jù)積累,結(jié)合專家知識,利用DNN方法,擬合PUE、制冷能耗、設(shè)備單機效率的數(shù)學預(yù)測模型。
基于PUE的預(yù)測模型,獲取實際場景與PUE敏感的特征值,利用模型中的特征如大氣條件、IT負載等參數(shù)進行負荷的數(shù)據(jù)建立本地模型。整個過程中,iCooling通過海量數(shù)據(jù)采集、數(shù)據(jù)處理(脫敏、去雜、歸一等)、PUE模型訓練&推理、最佳PUE決策建議下發(fā)給BA冷機群控系統(tǒng)和末端空調(diào)群控系統(tǒng),從而實時驅(qū)動底層設(shè)備運行狀態(tài)調(diào)整,周而復始的保持最佳PUE狀態(tài)。另外,在負載率變化≥5%或室外溫差≥3℃,iCooling重新構(gòu)建PUE訓練模型,自動尋優(yōu)。
華為iCooling從數(shù)據(jù)安全、控制安全、運行安全三個層次解決實際應(yīng)用問題,基于聯(lián)邦學習和遷移學習算法,本地部署保障AI模型訓練數(shù)據(jù)無需出局,同時具備雙層邏輯控制的AI優(yōu)化控制主動、被動退出機制,滿足運維SLA要求,調(diào)測更省心。目前華為iCooling已在金融、運營商、大企業(yè)和智算中心行業(yè)應(yīng)用60+案例,使能運行PUE降幅可達:水冷冷凍水8%~15%、風冷冷凍水5~8%、華為EHU 3%~5%。華為iCooling幫助數(shù)據(jù)中心運行PUE接近設(shè)計PUE的同時,也有利于客戶申報零碳、綠色數(shù)據(jù)中心優(yōu)秀案例。