中國儲能網訊:數據中心的存在,就是為了保障計算的安全與可連續(xù)性。然而,僅僅最近三年中,數據中心發(fā)生了十余件故障乃至災難。詳見:《盤點:近年數據中心十大災難事件》
數據中心系統(tǒng)龐雜,運維安全本就不易,近年來的極端氣候、技術發(fā)展等因素,也為數據中心高可靠性帶來了新挑戰(zhàn),我們應該如何預防與應對?
數據中心故障“老面孔”
經過盤點近年來災難事件不難發(fā)現,電力系統(tǒng)、制冷系統(tǒng)、人工操作一直是導致數據中心故障的最常見因素。
線路老化
線路老化引發(fā)火災,常見于建成多年的數據中心,韓國SK數據中心火災就是由于線路起火導致的。
線路故障的主要原因是舊+熱:
舊:電線外包絕緣層,正常使用壽命在10~20年,線路老化后,可能造成破損,絕緣性能下降,遇到液體或濕度過大時容易引起短路、著火。
熱:根據焦耳定律,負載電流經過電線時產生熱量。數據中心24小時運轉,電線長期高負荷運行情況下,高溫加速線路絕緣老化,以至絕緣被擊穿。
UPS/電池故障
Telstra英國數據中心火災、北京郵電大學數據中心火災,即由電池故障導致。
數據中心電池/UPS故障的主要原因有過度循環(huán)放電、電池接頭密封不嚴、鏈接松動、高溫、高浮/低浮充電壓等。鉛酸電池一般壽命為5年,鋰電池壽命在10年左右,隨著電池使用年限的增加,性能降低,故障率也隨之提升。如果維護、檢查疏漏,可能未及時更換快到年限的電池。
又因為數據中心電池數量龐大,串聯及并聯使用,一旦一節(jié)電池故障后起火、爆炸,會蔓延造成大的災難事故。鋰電池一旦起火爆炸的危險性高于鉛酸電池,滅火難度也更大。例如2021年北京市豐臺區(qū)西紅門儲能電站起火爆炸事故,就是因為電池間內磷酸鐵鋰電池發(fā)生內短路故障,引發(fā)電池熱故障起火和擴散,進而遇電氣火花發(fā)生爆炸。
近年來鋰電池應用中受到主要疑慮即來自于此。
制冷故障
無論是壓縮機、安全閥抑或停水導致的制冷故障、制冷效率低,均會引發(fā)機房溫度升高,影響設備性能,如果不能及時處理,機房溫度持續(xù)上升,或因過熱宕機,服務中斷、硬件損壞、數據丟失。
人工誤操作
日常巡檢是數據中心的重要保障手段,但操作不當也是造成故障的重要原因。此前多起數據中心起火就是由于人員操作不當產生電火花,引燃易燃材料導致的,也有數據中心在維護保養(yǎng)時未嚴格執(zhí)行工作手冊,導致電池短路等故障。
導致數據中心業(yè)務中斷因素占比統(tǒng)計
來源:Uptime Institute2021年全球數據中心調查報告
研究機構Uptime發(fā)布的《2021年全球數據中心調查報告》也說明,導致數據中心業(yè)務中斷的因素中,電力、網絡、制冷占前三位。
越發(fā)展越“危險”
數據中心那些新挑戰(zhàn)
近年來極端氣候、疫情、技術發(fā)展等,也為數據中心的高可靠性帶來了新的挑戰(zhàn)。忽視極小概率導致被淹、宕機的多起前車之鑒在前,從業(yè)人員面對這些新變數,必須提高警惕性。筆者根據此前訪問與了解,試總結如下:
數據中心規(guī)模愈大,運維管理愈難。
數據中心建設呈現規(guī)模化、集約化趨勢,近年來新建項目少見小型、中型數據中心,多為大型、超大型數據中心園區(qū),分多期建設完成。
而數據中心體系龐大管理復雜,暖通系統(tǒng)、電力系統(tǒng)、弱電系統(tǒng)、消防系統(tǒng)……一個1000機柜的數據中心就擁有測點10萬+,規(guī)模增加的同時,巡檢耗時、運維故障排查難度成倍提升,容易造成疏漏和盲點,進而引發(fā)安全事故。
高功率高密度,應急時間被壓縮。
正如Azure美東數據中心的災難事件,當數據中心冷卻出現故障,機房溫度不斷升高,服務器出現異常,如果運維團隊不能及時排障處理,高溫導致將服務器宕機、設備損壞。
近年來,數據中心的服務器單機柜功率密度不斷提高,服務器高負荷下工作產生的熱量隨之增大,機房升溫迅速,留給運維的應急處理時間被壓縮。有從業(yè)者曾表示“現在5分鐘機房溫度可以升高3~5℃,20分鐘內溫度將升高約15~20℃,如果說曾經留給運維團隊定位、處理故障的應急時間有30分鐘以上,現在已經壓縮到10分鐘甚至更短。”
極端氣候頻發(fā)
近年來全球極端天氣頻發(fā),干旱、暴雨、高溫,很多地區(qū)遭遇未有過的反常天氣,給數據中心可靠性帶來新挑戰(zhàn)。
例如英國屬溫帶海洋性氣候,最高溫不會超過32℃,但今年卻達到驚人的42℃,“極端高溫天氣遠超數據中心運營者設計之初的預期”。同樣,我國北方很多地區(qū)年均降雨量不高,因此沒有完善的汛情應對預案,部分數據中心連抽水泵等物資都儲備不足,也沒有考慮到積水時供油運輸問題。今年,四川等地遭遇罕見大旱,水電來水偏枯,城市開啟限電措施,部的數據中心只能長時間依靠柴發(fā)運轉。
疫情變量
當所在地出現疫情感染時,或區(qū)域封控時,怎樣保證數據中心正常運轉,同時保護好數據中心工作人員的健康安全?從業(yè)務連續(xù)性到客戶緊急需求的處理,從運維團隊配置、人員衣食住行,到內部防疫防感染、進出限制措施,都需要數據中心形成完善制度,避免緊急情況下措手不及,引發(fā)宕機或大面積感染事件。
從選址設計到買保險
數據中心安全面面重
說過這么多災難案例與故障因素,需要強調的是,災難預防和應對絕不僅僅是數據中心的事。數據中心的高可靠性,需要多方共同參與構建,正如木桶效應,任何一處短板都會造成疏漏。
選址規(guī)劃設計關注危險因素
自然資源是數據中心選址規(guī)劃時的重要考慮因素,如常年低溫、氣候干燥、水資源豐富、水電充沛,這些都會給數據中心運營帶來優(yōu)勢。
然而,全球極端天氣頻發(fā),各區(qū)域氣候也逐漸發(fā)生改變。正如今夏倫敦某數據中心負責人所說,“數據中心在設計之初就考慮到忍耐高溫的問題,但是目前的極端高溫天氣已經遠遠超出了許多數據中心運營者在設計之初的預期?!?
因此,數據中心的選址設計必須要考慮更多氣候變量,常年涼爽地區(qū)可能面臨高溫,干旱地區(qū)或許遭遇暴雨,水電充沛多路市電接入,電力也絕非保障無虞,極端天氣還可能使當地少見的山火、滑坡等意外概率大大提升。
曾經不可能出現的氣候問題,需要被數據中心設計方和運營方加入考慮,避免出現河南汛情和倫敦高溫導致的宕機,等“超出設計預期”的情況。
基礎設施共同構建安全
各系統(tǒng)設備廠商可以通過多方面行動助力數據中心安全,降低或預防災難可能性。
首先,不斷提升設備性能。例如制冷系統(tǒng)廠商美的樓宇科技推出的多款制冷解決方案,針對當前數據中心散熱高、空調能耗高等痛點,有效提升制冷效率。
其次,應用新技術、研發(fā)新產品,補齊數據中心故障短板,提高整體安全性。例如克萊沃在IDCC大會上所介紹小母線和智能PDU在數據中心的應用,產品更耐高溫、避免電涌侵襲,減少電線變形和電路損壞,提高供配電系統(tǒng)穩(wěn)定性。
第三,在應用新技術推出新產品前,做好新技術的安全保障,開展嚴格的可靠性測試驗證。例如華為數字能源對SmartLi智能鋰電產品在實驗室進行熱插拔測試并聯不均流度,在TUV機構進行針刺實驗,分別測試三元鋰、錳酸鋰和磷酸鐵鋰電芯針刺后的反應,觀察是否會熱失控起火,驗證其電池產品的穩(wěn)定性。
第四,從設備層面實現智能化、數字化,推出智能管理系統(tǒng),實現設備可視化運行、故障預測、定位,降低運維難度與壓力,進而減少疏漏。例如中興通訊的iDCIM數據中心智能管理系統(tǒng),支持百萬級測點接入,多維可視,支持機器人巡檢,可以實現數據中心基礎設施全生命周期管理。
自主研發(fā) 提高可靠性
最了解數據中心的,還是數據中心。
除了使用各類廠商的設備和管理系統(tǒng),也有走在行業(yè)前列的數據中心,將運營經驗積累沉淀成體系,根據需求自己研發(fā)管理系統(tǒng)、軟硬件,用于提高可靠性。
例如萬國數據基于運營八十幾座數據中心的需求,構建了三層的全球數據中心運營架構,還在IDCC2021上推出了第一代Smart DC,其中智能運營方面,基于運營實踐及自研軟硬件協同,形成X-BP系列產品,打造更懂數據中心的機電系統(tǒng),實現全棧智能管理、最優(yōu)化TCO。
災備與兩地三中心
“不要把雞蛋放在一個籃子里”,這句名言是容災備份、兩地三中心的最好廣告詞。由于政策及合規(guī)性要求,金融用戶尤其關注容災備份。
IDC圈獲悉,自去年起多個銀行、金融機構啟動了災備數據中心的建設計劃,其中和林格爾等“東數西算”節(jié)點是熱門選址地。中國銀行、中國農業(yè)銀行、中國建設銀行等多個金融機構已經在和林格爾布局建設數據中心。
買保險
數據中心承載愈來愈重要,直接關系社會民生,一旦發(fā)生災難,對數據中心及用戶都將帶來巨大的金錢和形象損失,保險就成了最后的保障。
IDC圈向保險行業(yè)人士了解到,數據中心保險可以分為三類:
第一類財產損失保險
屬于傳統(tǒng)保險,財產險保險公司都可以提供該服務,只是估值方式不同,如何評估資產和損失。這類保險偏向于物理損失,一般以火災、地震等自然災害等情況比較多,基本上數據中心都有購買這類保險。
第二類,偏損失類的網絡安全保險
一般財產保險公司或責任險保險公司專門有這類產品。有別于財產保險偏向于物理的損失,網絡安全保險偏向于受到外部攻擊,如DOS、安全攻擊等造成了設備和軟硬件損失,發(fā)生的維修維護費用。
第三類,偏責任類的網絡安全或者數據安全保險
這類屬于新型保險,保的是數據中心企業(yè)自身的責任,實際是給客戶的——如果數據中心遭遇攻擊等,客戶數據被泄露、丟失、損壞、篡改以及軟硬件遭受損害,有明確佐證下會獲得賠付。網絡安全保險主險往往還會有營業(yè)中斷損失保險、隱私泄露責任保險、網絡勒索保險等附加險。
某保險公司針對數據中心的保險方案
因此,數據中心保險的構成相對于大家熟知的人身保險、財產保險更為復雜,企業(yè)可以找提供財產險和責任險的保險公司咨詢,也可以請筆者咨詢到的大童保險這類專業(yè)保險中介提供服務,訂制符合需求的保險產品與承包范圍。
如果數據中心購買了保險產品,一旦出現故障、災難事件,例如著火造成客戶服務中斷,是否賠付具體要看承包的保險產品責任屬性,是服務中斷責任、是數據丟失責任、還是信息泄露的責任,是否在保險范圍內??偠灾?,保險的購買、責任認定和估值都比較復雜。如大家有興趣詳細了解,IDC圈將邀請專業(yè)人士深入采訪,撰文介紹。
智者千慮,必有一失。當前,數據中心災難預防應對正面臨諸多新挑戰(zhàn),而數據中心的高可靠性需要多方共同參與構建。



