中國儲能網(wǎng)訊:7月19日,英國經(jīng)歷了破紀錄的104華氏度(40攝氏度)高溫,使位于英國的谷歌云和甲骨文服務器遭遇了與冷卻相關(guān)的宕機。
谷歌在其谷歌云狀態(tài)頁面上指出,該公司在英國的一個數(shù)據(jù)中心遭遇了“與冷卻相關(guān)的故障”,使該區(qū)域的部分容量故障,導致VM(虛擬機)終止和一小部分客戶的機器損耗。甲骨文在其狀態(tài)頁面上為客戶提供了類似信息,直接將英國“與季節(jié)不符的高溫”列為故障原因。
數(shù)據(jù)中心承載著億萬數(shù)據(jù)高速交匯碰撞,構(gòu)成了數(shù)字社會的重要基礎(chǔ)設施,維持其正常高效的運行,成為和維持供水、供電一樣重要的一環(huán)。自中國把數(shù)據(jù)中心納入新基建以來,多個地方政府將數(shù)據(jù)中心的建設列入當?shù)匕l(fā)展規(guī)劃。在政策利好加持下,數(shù)據(jù)中心行業(yè)加速發(fā)展,與此同時,數(shù)據(jù)中心作為公認的高耗能行業(yè)也面臨著減少能耗的重大挑戰(zhàn)。
從微軟把數(shù)據(jù)中心放到海底,F(xiàn)acebook將數(shù)據(jù)中心靠近北極圈,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷,各大互聯(lián)網(wǎng)巨頭都在設法利用自然條件降低數(shù)據(jù)中心的能耗。
但這種方式對數(shù)據(jù)中心基礎(chǔ)設施提出了“昂貴”的要求,而絕大多數(shù)的數(shù)據(jù)中心,必須找到“物美價廉”的解決方案。
01
能耗大戶要“瘦身”
數(shù)據(jù)中心作為數(shù)據(jù)流的“河道”,肩負著數(shù)據(jù)的接收、處理、存儲與轉(zhuǎn)發(fā)的職能,眾多企業(yè)在這條“河道”暢游成長,也為持續(xù)發(fā)展數(shù)字經(jīng)濟修煉“內(nèi)功”。根據(jù)《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》,到2025年,全國數(shù)據(jù)中心算力將達到2020年的3.3倍。
由于數(shù)據(jù)中心包含大量的IT設備、供電與制冷設備,其耗能和碳排放量規(guī)??捎^。據(jù)中國信通院的數(shù)據(jù)顯示,2020年全國數(shù)據(jù)中心耗電量約760億千瓦時,占全社會總耗電量的1%。雖然整體上數(shù)據(jù)中心耗電規(guī)模占全社會比重不及電力、化工等高排放行業(yè),但隨著數(shù)據(jù)中心算力的不斷增長,綠色低碳必將并且已經(jīng)成為新型數(shù)據(jù)中心發(fā)展的重要基本原則之一。
按照《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》以及《工業(yè)能效提升行動計劃》等部署,下一步,要持續(xù)開展國家綠色數(shù)據(jù)中心建設,推動老舊數(shù)據(jù)中心實施系統(tǒng)節(jié)能改造,并基本形成建設布局合理、技術(shù)先進、綠色低碳、算力規(guī)模與數(shù)字經(jīng)濟增長相適應的新型數(shù)據(jù)中心。到2025年,新建大型、超大型數(shù)據(jù)中心電能利用效率PUE值優(yōu)于1.3。
PUE全稱“Power Usage Effectiveness(能源使用效率)”,是數(shù)據(jù)中心消耗的一切動力與IT負載運用的動力之比,比值越接近于1,說明能源越接近全部都用于IT負載上。而實際情況是,大多數(shù)數(shù)據(jù)中心PUE值都在1.5以上,即消耗在冷卻等非IT負載上的能源,占到了IT負載的一半以上。
如何降低數(shù)據(jù)中心的能耗?中國工程院鄔賀銓院士曾為數(shù)據(jù)中心廠商指出三條路徑:首先,優(yōu)化數(shù)據(jù)中心選址,可部署在像西部以及低碳環(huán)境的地區(qū);其次,改進數(shù)據(jù)在存儲、調(diào)用、計算的管理,提高數(shù)據(jù)運作的效能;第三,數(shù)據(jù)中心要善于處理“冷數(shù)據(jù)”。
服務器的計算能力愈加強大,其部件的散熱挑戰(zhàn)就越大,如何在有限的空間內(nèi)把熱量及時有效散出去是產(chǎn)業(yè)鏈上下游都關(guān)注的一個問題。
據(jù)英特爾綠色數(shù)據(jù)中心項目負責人介紹,新建數(shù)據(jù)中心可以通過選擇使用一系列先進的軟硬件技術(shù),或選址在高緯度地區(qū),通過新風進行散熱。風冷也可以使PUE值達到1.3甚至更低,但是要進一步降低PUE,或是數(shù)據(jù)中心選址在南方等年平均氣溫較高的地方,液冷就可能從可選項變成必選項。從另一個維度考慮,對于“中心城市的數(shù)據(jù)中心”,由于需要避免延遲的問題,數(shù)據(jù)中心要盡量靠近客戶,如深圳周邊的數(shù)據(jù)中心承接本城市低延遲業(yè)務,液冷可能就會成為比較好的數(shù)據(jù)中心散熱方案。對于存量數(shù)據(jù)中心,目前國家出臺了一系列的鼓勵措施,對“小、慢、散”數(shù)據(jù)中心進行升級改造或者鼓勵退出。對存量數(shù)據(jù)中心的改造相對比較復雜,使用漸進式的、軟件為主的手段進行升級改造,能夠?qū)崿F(xiàn)對業(yè)務的影響最小化。據(jù)其介紹,英特爾正在與產(chǎn)業(yè)鏈上下游企業(yè)一起共同探索多種散熱方案的成本優(yōu)化,在能效與功率密度、散熱技術(shù)和基礎(chǔ)設施智能化三個垂直領(lǐng)域,以及芯片、服務器、機架、數(shù)據(jù)中心四個水平方向,提供了一系列的從器件級到服務器系統(tǒng)、機架和數(shù)據(jù)中心層級的整體解決方案和參考設計,包括先進風冷、冷板式液冷和浸沒式液冷等多種散熱方式的創(chuàng)新工程實踐。
在能效與功率密度上,英特爾通過高壓直流、分布式電池技術(shù)、48V集中式供電技術(shù)配合英特爾FIVR等技術(shù),可以從各個層面幫助更廣泛的數(shù)據(jù)中心生態(tài)合作伙伴提高其硬件產(chǎn)品設計能效,功率密度以及上架率的目標。
在散熱技術(shù)上,英特爾從硅片出發(fā),提供一系列從器件級到服務器系統(tǒng)、機架和數(shù)據(jù)中心層級的整體解決方案和參考設計,包括先進風冷、冷板式液冷和浸沒式液冷等多種散熱方式的工程實踐。
在基礎(chǔ)設施智能化上,英特爾通過軟件調(diào)優(yōu)措施,對數(shù)據(jù)中心各個層面的部件進行調(diào)整優(yōu)化,實現(xiàn)提高整體能效的目的。
02
服務器在水里“泡澡”
冷卻設備是數(shù)據(jù)中心非IT設備能耗的主要來源,在總能耗中占比達到30%。隨著云計算數(shù)據(jù)中心的單體規(guī)模越來越大,無論局部散熱還是整個數(shù)據(jù)中心散熱,風冷技術(shù)均趨于能力上限,且每年會產(chǎn)生大量的電力消耗。提升冷卻效率也成為建設綠色數(shù)據(jù)中心的一個重要選擇。
此外,提升冷卻效率,就能夠有效降低 IT 設備的工作溫度,使得具備動態(tài)頻率調(diào)節(jié)能力的 XPU 等關(guān)鍵組件能夠以較高頻率穩(wěn)定運行,有助于數(shù)據(jù)中心服務器在高負載下依然保持穩(wěn)定的高性能輸出。而且,由于工作溫度的降低,IT 設備的運行壽命得以提升,在冷卻方面耗費的成本也得以降低。
傳統(tǒng)數(shù)據(jù)中心多采用空氣作為冷卻介質(zhì),這種方式較為成熟且應用廣泛,但是缺陷也相當明顯:當數(shù)據(jù)中心部署了高密度的服務器時,由于房間水平的空氣循環(huán),傳統(tǒng)的空氣冷卻系統(tǒng)無法在垂直機架陣列的 IT 設備入口處提供均勻溫度的空氣;此外,空氣冷卻系統(tǒng)效率相對較低,特別是在機架中的高密度服務器運行時,滿足散熱需求的空氣冷卻系統(tǒng)的總功率常會達到 100kW 以上,這在經(jīng)濟性、供電、噪音等方面都會帶來巨大的困擾。
前述各IT巨頭遷移數(shù)據(jù)中心到海底、乃至深層湖水的解決方案,雖實現(xiàn)了直接物理制冷的效果,但數(shù)據(jù)中心在水下,對服務器部件的要求非常高,輕易不能宕機且能夠兩年以上不間斷連續(xù)工作。這要求服務器的產(chǎn)品設計、部件選型,都需要大量的磨合工作。
近年來,國內(nèi)外許多頭部IT企業(yè)也開始布局液冷技術(shù),根據(jù)相關(guān)的數(shù)據(jù),液冷數(shù)據(jù)中心每年至少可以節(jié)省30%用電量。市場分析機構(gòu)預計,到2026年,液冷數(shù)據(jù)中心市場的初始估值從2018年的14.3億美元增至1205億美元,年化復合增長率達30.45%。
目前液冷技術(shù)主要有三種部署方式,分別是浸沒、冷板、噴淋。其中,浸沒式冷卻被業(yè)內(nèi)稱為“把服務器在水里泡澡”,通過將整個系統(tǒng)浸入環(huán)保冷卻液中,散發(fā)的熱量可以幾乎100%由液體傳導走,也方便了后期的熱量回收。
液冷數(shù)據(jù)中心雖然增加了泵和冷卻劑系統(tǒng),但省略了空調(diào)系統(tǒng)和相應基礎(chǔ)設施的建設,節(jié)省了大量空間,可以容納更多的服務器。同時,液冷技術(shù)的冷卻能力優(yōu)良,可以應對高功率密度數(shù)據(jù)中心的冷卻工作,因此液冷數(shù)據(jù)中心可以配備高密度服務器,從而獲得更高的計算效率。更大的好處在于,配備浸沒式冷卻技術(shù)的數(shù)據(jù)中心可回收90%的廢熱來另作他用。如此一來,數(shù)據(jù)中心就能從耗電大戶變身為熱電廠,為房間和建筑物供熱、冷天里為過道供暖,甚至熱量直接輸入到城市供熱網(wǎng)中,輻射到周邊溫室、垂直農(nóng)業(yè)、漁業(yè)養(yǎng)殖等地方。
英特爾圍繞浸沒式液冷所面臨的材料兼容性、電氣信號完整性、芯片散熱特性、服務器系統(tǒng)散熱特性、服務器及機柜 (Tank)結(jié)構(gòu)設計等課題,與合作伙伴開展了廣泛而深入的合作,從處理器定制和服務器系統(tǒng)開發(fā)與優(yōu)化著手,突破芯片功耗墻功耗和冷卻兩大影響算力提升的關(guān)鍵問題,使得液冷服務器能夠成功大規(guī)模部署。比如,英特爾與Submer在巴塞羅那合作的AI研究中心,部署了使用英特爾驗證的特殊液體,服務器產(chǎn)生的熱量被捕獲并作為加熱源被重新注入其供熱系統(tǒng)中,熱量得以循環(huán)利用。
“無論從政策角度、市場需求還是技術(shù)成熟度看,均標志著數(shù)據(jù)中心進入‘液冷時代’?!敝袊娮庸?jié)能技術(shù)協(xié)會秘書長呂天文表示,液冷技術(shù)的興起為數(shù)據(jù)中心節(jié)能降耗帶來了無限可能。液冷技術(shù)不僅能夠滿足數(shù)據(jù)中心高密度、低能耗的發(fā)展需求,還將驅(qū)動數(shù)據(jù)中心內(nèi)的各種配置和部件進行優(yōu)化和創(chuàng)新,帶來一場持續(xù)性的優(yōu)化改革。
03
給服務器鋪上“涼席”
目前,液冷系統(tǒng)的技術(shù)路線可以分為冷板液冷、浸沒液冷和噴霧液冷。其中,冷板液冷主要方法是組建冷卻液回路,利用CDU分配冷卻液。在通過冷板收集計算節(jié)點的熱量后,冷卻液不斷流向另一個冷的 CPU,并通過另一個連接器離開服務器冷板管道,實現(xiàn)液冷計算節(jié)點的液冷循環(huán)。冷板液冷技術(shù)目前在行業(yè)內(nèi)相對成熟,在傳統(tǒng)數(shù)據(jù)中心改造、數(shù)據(jù)中心基礎(chǔ)設施復用等方面具備一定的優(yōu)勢。
冷板液冷,形象說就是給服務器鋪上“涼席”,把熱傳導出去。這種技術(shù)相對比較成熟,在中國市場對比浸沒式液冷來說更加流行。
例如,京東云冷板液冷解決方案是從數(shù)據(jù)中心級到系統(tǒng)級的整體解決方案,采用了基于第三代英特爾® 至強® 可擴展處理器的定制化服務器,調(diào)整了核心數(shù)、基礎(chǔ)和Turbo頻率、TDP、RAS特性、T機箱等主要參數(shù),以適配其可持續(xù)的液冷數(shù)據(jù)中心。方案涵蓋了CDU、機架、服務器等不同層級的產(chǎn)品與技術(shù),在CDU、工作液、歧管、服務器等方面進行了針對性的設計。
在相同服務器節(jié)點配置下,京東云對比了空氣冷卻與冷板液冷在25°C和35°C環(huán)境溫度下的冷卻效果,后者的服務器節(jié)點的風扇功率比前者顯著降低了18%和44%。服務器節(jié)點出口溫度降低11-16°C,噪音降低1.0-7.0dBA。
采用冷板液冷后,京東云數(shù)據(jù)中心的PUE值從1.3降低到1.1,每個14KW機柜可節(jié)電31031度。與傳統(tǒng)風冷式整機柜相比,液冷整機柜服務器使數(shù)據(jù)中心部署總體能耗降低40%以上;采用N+N冗余的集中供電設計,滿足多節(jié)點供電需求的同時,通過電源均衡優(yōu)化技術(shù),可以使電源一直工作在最高效率,比分布式電源模式整體效率提升10%;做到一體化交付,高效運維部署,交付速度提高5-10倍。
目前,液冷整機柜服務器已在京東云數(shù)據(jù)中心實現(xiàn)規(guī)?;渴穑瑸榫〇|618、雙十一、央視春晚紅包互動提供了基礎(chǔ)算力保障,數(shù)據(jù)中心綜合效能提升34%-56%。
雖然冷板液冷技術(shù)不復雜,但現(xiàn)狀是缺乏標準化。由于液冷與空氣冷卻系統(tǒng)在設計上有較大的差異,很多技術(shù)仍缺乏充分的驗證,因此在效率、穩(wěn)定性、經(jīng)濟性等方面都存在可優(yōu)化空間。
英特爾綠色數(shù)據(jù)中心項目負責人表示,國家在綠色數(shù)據(jù)中心領(lǐng)域的明確訴求是降低PUE,而液冷是直接可以為之貢獻力量的技術(shù)。目前冷板液冷技術(shù)相對成熟,但是市場上還沒有一個統(tǒng)一的標準能讓整個生態(tài)系統(tǒng)去使用。對此,英特爾與業(yè)界合作伙伴組成了工作組一起探討制定冷板技術(shù)標準。目前,該工作組已經(jīng)有20多家企業(yè),廣泛代表中國服務器市場制造商與使用者的聲音,工作組的成果也得到了國家標準機構(gòu)的積極認可。“客戶在中國,供應商在中國,部件商也在中國,再加上高質(zhì)量的本土制造能力,我們應該有能力最大限度的降低冷板液冷解決方案的采購與使用成本。幫助我們的客戶更好更快的采用低PUE的散熱方案,從而助力國家雙碳大戰(zhàn)略?!?
04
算力調(diào)控“七十二變”
液冷技術(shù)可以立竿見影地降低能耗,但對數(shù)據(jù)中心基礎(chǔ)架構(gòu)的改變比較大,這較適用于資金實力雄厚的互聯(lián)網(wǎng)巨頭和超算中心。那些無法引入架構(gòu)變化的企業(yè),就需要漸進式的軟件“改良”,以達到節(jié)能減排等目的。
實際上,通過靈活配置處理器多個核心的運行狀態(tài),對其功耗和頻率進行精細化控制,可以有效提高數(shù)據(jù)中心的能效比,在某些具體應用中可達到5%-30%的效率提升與收益。
例如,英特爾® 速度選擇技術(shù)(英特爾® SST)能夠?qū)μ幚砥鲉蝹€及多個核心的運行狀態(tài)、頻率和功耗進行精細化控制,依靠PP、BF、CP和TF四種不同但又可互補的配置模式,在更優(yōu)能效的前提下,滿足不同應用場景或應用負載的差異化需求,從而為企業(yè)多樣化、差異化應用需求提供更優(yōu)支持。
具體來講,在性能要求高、時延敏感的在線游戲場景中,至強® 可擴展處理器就可以在英特爾® SST助力下,調(diào)整為高主頻、低核心數(shù)模式,以少量核心發(fā)揮英特爾® 處理器高主頻優(yōu)勢。
在云業(yè)務等尋求高并發(fā)計算吞吐量的場景中,至強® 可擴展處理器則可被調(diào)整為低主頻、高核心數(shù)模式,充分體現(xiàn)英特爾® 處理器多核心+多線程的優(yōu)勢。
在一些應用場景中,處理器每個核心的負載并不均衡,常常會出現(xiàn)運行關(guān)鍵任務的核心已滿載甚至超載,而其它核心卻相對輕閑或空閑。面對這種情況,在英特爾® SST 中的SST-BF(Base Frequency)模式和SST-TF(Turbo Frequency)模式下,處理器能夠更加精細化、差異化地對不同核心的基頻(SST-BF模式)或睿頻(SST-TF模式)進行調(diào)整。將低優(yōu)先級負載核心的頻率盡量降低,再利用它們釋放出的功耗儲備,讓那些正在承載高優(yōu)先級負載的部分核心運行在更高頻,即更高算力輸出狀態(tài)下。
此外,英特爾® SST還擁有SST-CP模式(Core Power),可對多個核心進行分組,并賦予不同的頻率狀態(tài),來應對不同優(yōu)先級的負載需求。在處理器負載非常高時,SST-CP模式會對執(zhí)行低優(yōu)先級任務的核心組進行降頻,以確保執(zhí)行高優(yōu)先級任務的核心組不受影響。
中國電信曾與英特爾一起,在控制云、轉(zhuǎn)發(fā)云等網(wǎng)元上進行了英特爾® SST的部署,并取得了出色的實用效果,控制能耗,顯著提高性能。
05
以技術(shù)創(chuàng)新?lián)肀Э沙掷m(xù)的未來
作為算力基礎(chǔ)設施的重要組成部分,數(shù)據(jù)中心是促進5G、人工智能、云計算、大數(shù)據(jù)等新一代信息化、數(shù)字化技術(shù)和應用發(fā)展的數(shù)據(jù)中樞和算力載體,對于數(shù)字經(jīng)濟增長以及提供數(shù)據(jù)服務具有重要的作用。作為承載數(shù)據(jù)、各行業(yè)信息系統(tǒng)的基礎(chǔ)保障設施,數(shù)據(jù)中心是發(fā)展以數(shù)據(jù)為基礎(chǔ)的產(chǎn)業(yè)鏈的關(guān)鍵一環(huán)。
因此,數(shù)據(jù)中心的可持續(xù)發(fā)展,是未來數(shù)字社會可持續(xù)發(fā)展的基礎(chǔ)條件。而可持續(xù)發(fā)展目標對數(shù)據(jù)中心帶來的改變,遠遠不只是冷卻方式,更會是一個影響深遠的轉(zhuǎn)折點,影響到數(shù)據(jù)中心設計的方方面面??梢哉f,數(shù)據(jù)中心的綠色環(huán)保是未來ICT可持續(xù)發(fā)展的關(guān)鍵方向。
就碳減排行動的第一步——碳測算來說,數(shù)據(jù)中心碳排放數(shù)據(jù)的測量相當復雜。由于越來越多的計算以虛擬機和容器的方式進行組織,各種業(yè)務以混雜的方式部署在不同硬件系統(tǒng)上,且在不停移動。要實現(xiàn)對不同業(yè)務碳排放的測量,就需要對虛擬機和容器級別的功耗都進行測算。在DevOps上加入對能耗統(tǒng)計的API,使得程序員在開發(fā)之初,就能對采集應用功耗的情況進行考量,這意味著基于碳排放數(shù)據(jù)測算基礎(chǔ)上的減排行動,有了科學推進的內(nèi)置工具。
2022年4月14日,英特爾公布到2040年實現(xiàn)全球業(yè)務的溫室氣體凈零排放,提高能效并減少英特爾產(chǎn)品和平臺的碳足跡,助力行業(yè)伙伴及客戶成功打造更環(huán)保的解決方案,以及聯(lián)合一些全球公用事業(yè)公司協(xié)力加快可再生能源電力入網(wǎng),到2040年全面實現(xiàn)“可持續(xù)計算”。
具體來說,英特爾規(guī)劃圍繞電源設計、冷卻技術(shù)等構(gòu)建行業(yè)標準,降低實施成本,結(jié)合中國市場特點,以助力提升能效、降低 PUE,進而推動先進綠色數(shù)據(jù)中心建設,實現(xiàn)綠色節(jié)能發(fā)展。同時,英特爾還將通過異構(gòu)算力產(chǎn)品,跨CPU、IPU、XPU的一致軟件堆棧,以及智能網(wǎng)絡結(jié)構(gòu),加速數(shù)據(jù)中心變革。
5月,英特爾又宣布了兩項重大計劃,首先是投資超過7億美元,建造一座20萬平方英尺的研發(fā)設施,以著力于解決熱回收與再利用、浸沒式冷卻、以及用水效率等問題。按照該計劃,這座研究實驗室將于今年晚些時候在俄勒岡州希爾斯伯勒(Hillsboro,Oregon)的瓊斯農(nóng)場(Jones Farm)園區(qū)開建。此外,英特爾披露了業(yè)內(nèi)首個基于開放知識產(chǎn)權(quán)(open IP)的浸沒式散熱解決方案的參考設計。英特爾希望借此簡化并加速其浸沒式液冷散熱方案在全球市場的推廣。
以技術(shù)創(chuàng)新造福于人是英特爾的不渝追求,而要做到這一點必須依靠打破常規(guī)、顛覆傳統(tǒng)的革命性解決方案,以更少的自然資源投入創(chuàng)造更大的價值。




