*近不少IDC運營商和政務(wù)數(shù)據(jù)中心運維團隊反饋,進入夏季后高溫高濕天氣疊加空調(diào)系統(tǒng)負載提升,IDC機房濕度控制稍有偏差*容易出現(xiàn)服務(wù)器結(jié)露、靜電放電等問題,輕則導(dǎo)致硬件壽命縮短,重則引發(fā)業(yè)務(wù)宕機。不少團隊也疑惑,日常的濕度監(jiān)測為什么還不夠?數(shù)據(jù)中心露點監(jiān)測需要符合哪些機房露點標準?要保障穩(wěn)定的服務(wù)器運行環(huán)境,該怎么選型配套的監(jiān)測設(shè)備?
很多運維團隊對IDC機房濕度控制的認知還停留在相對濕度的管控上,認為只要把相對濕度維持在40%-60%區(qū)間*足夠,但實際上相對濕度受溫度影響波動極大,一旦冷通道送風(fēng)溫度出現(xiàn)波動,哪怕相對濕度顯示在合理區(qū)間,也可能出現(xiàn)空氣達到飽和結(jié)露的情況,直接威脅服務(wù)器運行環(huán)境安全。IDC機房濕度控制的核心目標*是維持露點溫度在合理區(qū)間,避免結(jié)露和靜電兩大風(fēng)險,相對濕度只能反映當前溫度下的水汽飽和比例,而露點溫度是直接反映空氣中水汽含量的指標,不受溫度波動影響,只要監(jiān)測到環(huán)境溫度接近露點溫度,*能提前預(yù)警結(jié)露風(fēng)險,這也是近年來數(shù)據(jù)中心露點監(jiān)測成為機房環(huán)境管控核心環(huán)節(jié)的主要原因。
此前南方某中型云服務(wù)商的省級節(jié)點*曾出現(xiàn)過相關(guān)事故,梅雨季期間運維團隊監(jiān)控到的相對濕度始終維持在52%左右,符合日常管控要求,但冷通道局部位置送風(fēng)溫度偏低,未被及時發(fā)現(xiàn),*終導(dǎo)致12臺機架式服務(wù)器的主板表面結(jié)露,引發(fā)硬件短路,核心存儲業(yè)務(wù)中斷近3.5小時,后續(xù)賠付及硬件更換成本超過百萬元。事后排查發(fā)現(xiàn),該節(jié)點此前未部署的數(shù)據(jù)中心露點儀,僅靠相對濕度數(shù)據(jù)判斷濕度狀態(tài),無法提前預(yù)警結(jié)露風(fēng)險。
服務(wù)器運行環(huán)境的濕度參數(shù)是硬件廠商明確要求的核心運維指標,大多數(shù)服務(wù)器廠商的產(chǎn)品說明書中都標注,運行環(huán)境的露點溫度超過17℃時,硬件的質(zhì)保范圍將相應(yīng)縮減,因結(jié)露導(dǎo)致的硬件損壞不在常規(guī)保修范圍內(nèi),這也進一步提升了露點監(jiān)測的必要性。
不管是面向商業(yè)客戶的IDC運營商,還是承載政務(wù)數(shù)據(jù)的政務(wù)數(shù)據(jù)中心,開展數(shù)據(jù)中心露點監(jiān)測首先要符合對應(yīng)的機房露點標準,才能滿足合規(guī)驗收、等級評定的相關(guān)要求。
國內(nèi)現(xiàn)行的GB 50174-2017《數(shù)據(jù)中心設(shè)計規(guī)范》中明確規(guī)定,A級數(shù)據(jù)中心的冷通道露點溫度應(yīng)維持在5.5℃-15℃區(qū)間,B級、C級數(shù)據(jù)中心的露點溫度要求可適當放寬,但也需控制在4℃-17℃區(qū)間【1】。除此之外,GB/T 2887-2011《計算機場地通用規(guī)范》也要求,計算機場地的露點溫度應(yīng)滿足設(shè)備廠商的硬件運行要求,且監(jiān)測數(shù)據(jù)需留存不少于6個月,可追溯可核查【2】。
針對G端的政務(wù)數(shù)據(jù)中心,等保2.0第三級及以上的要求中,也明確將機房環(huán)境監(jiān)測納入必查項,其中露點溫度的監(jiān)測頻次、數(shù)據(jù)留存、偏差預(yù)警都有明確要求,不符合要求的將無法通過等保測評【3】。面向國際客戶的IDC機房,還需要符合Uptime Institute的Tier等級要求,其中Tier III及以上等級的數(shù)據(jù)中心,要求露點溫度監(jiān)測覆蓋率達到*,預(yù)警響應(yīng)時間不超過30秒【4】。
不少運維團隊在合規(guī)檢查中遇到的問題,大多集中在數(shù)據(jù)不可追溯、監(jiān)測設(shè)備沒有法定計量認證這兩點,因此在部署數(shù)據(jù)中心露點儀時,除了要滿足監(jiān)測精度要求,還要確認設(shè)備具備對應(yīng)的計量校準資質(zhì),監(jiān)測數(shù)據(jù)可作為合規(guī)檢查的有效依據(jù)。
數(shù)據(jù)中心露點監(jiān)測的落地,需要從點位布置、設(shè)備選型、運維機制三個層面同步推進,才能真正為IDC機房濕度控制提供有效支撐,保障穩(wěn)定的服務(wù)器運行環(huán)境。
首先是點位布置,要覆蓋所有容易出現(xiàn)溫度偏低、水汽聚集的區(qū)域,包括冷通道每2個機柜的進風(fēng)口位置、精密空調(diào)的出風(fēng)口、吊頂夾層的送風(fēng)管道附近、機柜頂部的閑置空間、UPS及電池室的出入口位置,A級機房還需要在每列機柜的背部熱通道位置增設(shè)監(jiān)測點位,避免局部溫差導(dǎo)致的結(jié)露風(fēng)險。
其次是設(shè)備選型,作為數(shù)據(jù)中心露點監(jiān)測的核心設(shè)備,數(shù)據(jù)中心露點儀的性能直接決定了IDC機房濕度控制的精度,要優(yōu)先滿足三個核心要求:一是監(jiān)測精度符合機房露點標準要求,A級機房選用的露點儀測量偏差不能超過±0.2℃,B級及以下機房的測量偏差不能超過±0.5℃;二是支持連續(xù)在線監(jiān)測,露點溫度的波動可能在10分鐘內(nèi)*達到結(jié)露閾值,間斷式的巡檢監(jiān)測無法覆蓋風(fēng)險;三是支持標準通信協(xié)議對接,可直接接入現(xiàn)有機房動環(huán)監(jiān)控系統(tǒng),不用額外搭建獨立的監(jiān)測平臺,降低部署及運維成本。目前不少IDC運營商和政務(wù)數(shù)據(jù)中心選用的CDPM-1000精密智能露點儀(精度款),*匹配了上述需求,其連續(xù)監(jiān)測能力強,支持數(shù)據(jù)輸出與機房監(jiān)控系統(tǒng)對接,可精準監(jiān)測IDC機房空氣露點,為服務(wù)器運行環(huán)境提供可靠的濕度數(shù)據(jù)支撐,適用于IDC運營商、云服務(wù)商及數(shù)據(jù)中心基礎(chǔ)設(shè)施運維團隊開展機房環(huán)境監(jiān)控工作,設(shè)備附帶的計量校準報告也可直接用于合規(guī)檢查,減少額外的檢測成本。
*后是運維機制的搭建,要設(shè)置兩級預(yù)警閾值,當環(huán)境溫度與露點溫度的差值小于3℃時觸發(fā)預(yù)警,通知運維人員排查空調(diào)送風(fēng)溫度設(shè)置是否合理;當差值小于1℃時觸發(fā)告警,自動聯(lián)動調(diào)整空調(diào)送風(fēng)溫度或新風(fēng)系統(tǒng)的除濕功率,避免結(jié)露風(fēng)險。同時要每6個月對所有數(shù)據(jù)中心露點儀進行一次校準,留存校準報告,監(jiān)測數(shù)據(jù)自動備份,留存時間不少于180天,滿足合規(guī)要求。
很多運維團隊在*部署數(shù)據(jù)中心露點監(jiān)測系統(tǒng)時,容易踩中不少誤區(qū),反而影響IDC機房濕度控制的效果。
第一個常見誤區(qū)是只看價格不看精度,部分低價的露點儀測量偏差超過±1℃,根本無法滿足機房露點標準的要求,監(jiān)測數(shù)據(jù)沒有參考價值,反而會導(dǎo)致運維人員誤判風(fēng)險,出現(xiàn)結(jié)露事故后損失遠高于設(shè)備采購的差價。
第二個誤區(qū)是忽略對接能力,部分設(shè)備只能搭配自有平臺使用,無法接入現(xiàn)有動環(huán)系統(tǒng),需要額外采購服務(wù)器、部署軟件,不僅部署周期拉長,整體成本也會上升30%以上,后續(xù)運維還要多維護一套系統(tǒng),增加運維負擔。
第三個誤區(qū)是不重視資質(zhì)要求,尤其是G端的政務(wù)數(shù)據(jù)中心,選用的監(jiān)測設(shè)備如果沒有法定計量機構(gòu)的校準報告,監(jiān)測數(shù)據(jù)無法作為合規(guī)檢查的依據(jù),后續(xù)還要重新更換設(shè)備,浪費時間和成本。
建議運維團隊在選型前,先梳理自身的機房等級、合規(guī)要求、現(xiàn)有監(jiān)控系統(tǒng)的對接協(xié)議,再匹配對應(yīng)的設(shè)備,采購前要求供應(yīng)商提供設(shè)備的計量校準證書、兼容性測試報告,避免后續(xù)出現(xiàn)問題。
參考文獻
【1】 GB 50174-2017 數(shù)據(jù)中心設(shè)計規(guī)范
【2】 GB/T 2887-2011 計算機場地通用規(guī)范
【3】 網(wǎng)絡(luò)安全等級保護基本要求(第三級)
【4】 Uptime Institute Tier 標準體系:數(shù)據(jù)中心性能等級指南