
在本(ben)文中,我們重點(dian)介紹(shao)了通用數(shu)據(ju)中心最佳(jia)實踐(jian),無(wu)論大小或位置(zhi)如何,這些最佳(jia)實踐(jian)都被認為(wei)對所有站點(dian)都有利。這些實踐(jian)是提供高可用性服務的數(shu)十年運營(ying)經驗中吸(xi)取的經驗教訓(xun)。
數據中(zhong)心運營管理的總體目標是(shi)最(zui)大程(cheng)度地減(jian)少服務(wu)中(zhong)斷的風險并最(zui)大化IT服務(wu)的可用性,同時以最(zui)低的成本最(zui)大程(cheng)度地利(li)用可用站(zhan)點資源。本文(wen)重點介紹有助于實現這(zhe)些目標的關鍵久經考驗的實踐。
通用數據中心最佳實踐
IT與設施管理(FM)/機電(M&E)工程之間的有效通信與合作對于服務可靠性和可用性至關重要。讓IT和設施團隊接受ITL服務交付和服務管理框架的基本原則培訓,是實現清晰,明確的通信所必需的一種好方法,這對于確保穩健和可靠的數據中心操作至關重要。這包括
可靠和一致的報告,并及時交付來自各個責任領域的準確信息。
可靠和一致的報告,并及時交付來自各個責任領域的準確信息。
清晰的溝(gou)通促(cu)進(jin)了(le)數(shu)據中心內部的緊密工(gong)作關系,并有助于在涉及運營可靠性和一(yi)致的服(fu)務交付的不(bu)同(tong)團隊之間建立明確(que)定義的職(zhi)責范圍(wei)。這(zhe)對于避(bi)免(mian)誤解(jie),降低風險,避(bi)免(mian)潛在的沖突以及消除危險的假設至關重要。
如果將ITIL部(bu)(bu)署(shu)在組織內部(bu)(bu),則設施部(bu)(bu)門(men)和(he)工程部(bu)(bu)門(men)應該全心全意地采用(yong)ITIL語(yu)言(yan),概念和(he)目標(biao),以便積極(ji)地使用(yong)該框架將嚴格的(de)(de)要求應用(yong)于數據中(zhong)心中(zhong)的(de)(de)IT部(bu)(bu)署(shu)和(he)管理。公(gong)司范(fan)圍的(de)(de)ISO標(biao)準(zhun),KPI和(he)指標(biao)也是如此。
通過使用通用語言和(he)集成工具(ju),ITL也可以用作實現真正集成的IT和(he)設施管理團隊(dui)的第一(yi)步。這可以統一(yi)站點操作,并消除與跨(kua)學科的誤解或職責不明確(que)相關的潛在問題。
數據中心資源和容量管理
對于任何(he)數據(ju)中心(xin)運營而言(yan),更廣泛的業(ye)務(wu)(wu)(wu)必須充(chong)分理(li)解(jie)并認可為(wei)站點(dian)選擇的風險(xian)簡介,這一點(dian)至關(guan)重要。了(le)解(jie)業(ye)務(wu)(wu)(wu)風險(xian)偏好是獲得利(li)益相關(guan)者(zhe)滿意度和成功交付業(ye)務(wu)(wu)(wu)的重要要素(su)。業(ye)務(wu)(wu)(wu)完全了(le)解(jie)并定義從數據(ju)中心(xin)交付的每項服務(wu)(wu)(wu)的風險(xian)承受(shou)(shou)能力以及降低風險(xian)或接受(shou)(shou)風險(xian)的真實成本,這是關(guan)鍵。
必須與應用程序(xu)所(suo)有(you)者(zhe)討(tao)論已部(bu)署的服務(wu)和設備。應用程序(xu)所(suo)有(you)者(zhe)推動了對IT服務(wu)的需求(qiu)和數據中心資源的消耗。但是,在太多情(qing)況下,應用程序(xu)所(suo)有(you)者(zhe)
“忘記了”在(zai)設備(bei)不(bu)再使(shi)用或使(shi)用壽命即將結束時通(tong)知(zhi)操作(zuo)。與(yu)預期相反(fan)的項目或預期的需求(qiu)增長(chang)通(tong)常不(bu)會傳(chuan)遞給負責管理數據(ju)中心(xin)容量的人員。
如果(guo)沒有(you)有(you)效(xiao)和(he)準(zhun)確的(de)資產(chan)跟蹤和(he)資源管理工具,則(ze)應執行常規的(de)電源和(he)熱審核,以(yi)(yi)確保有(you)效(xiao)利用(yong)站點(dian)資源并且不浪費容量。如果(guo)未正確計劃,新系統(tong),升級和(he)房間變更可能會帶(dai)來意想不到(dao)的(de)后果(guo),因此監視和(he)充分了(le)解氣流(liu),溫度和(he)其(qi)他(ta)環(huan)境因素非常重(zhong)要(yao)。現在(zai)可以(yi)(yi)使用(yong)結合(he)專家(jia)知識的(de)極其(qi)有(you)效(xiao)和(he)直(zhi)觀的(de)工具,以(yi)(yi)最大程度地減少執行此正在(zai)進行的(de)管理工作(zuo)的(de)開(kai)銷。
數據中心財務管理
除了(le)上述成本控(kong)制(zhi)之外,成本控(kong)制(zhi)始終應(ying)是(shi)一(yi)個重(zhong)要考慮因素,尤其是(shi)在提(ti)高效(xiao)率以及降低功率和(he)冷卻成本方面。實現這一(yi)點的(de)(de)關鍵(jian)是(shi)維(wei)護(hu)準(zhun)確的(de)(de)IT和(he)機電基(ji)礎設施資產登(deng)記冊。(準(zhun)確度為95-100%),其中(zhong)還包(bao)括預(yu)計的(de)(de)生命周期更(geng)換(huan)計劃和(he)預(yu)計的(de)(de)費用。代替有(you)效(xiao)的(de)(de)資產跟蹤工具和(he)政策登(deng)記冊,應(ying)每年(nian)至少進行兩次審核,以保持準(zhun)確性,并為可靠的(de)(de)“單一(yi)事實來(lai)源”做(zuo)(zuo)出貢(gong)獻,不同(tong)的(de)(de)系(xi)統可依靠該(gai)“可靠來(lai)源”做(zuo)(zuo)出明智的(de)(de)決策,甚至在適當(dang)的(de)(de)情況(kuang)下進行控(kong)制(zhi)。
“真相的唯(wei)一來源可(ke)能(neng)基于聯合數據集(ji),該聯合數據集(ji)可(ke)能(neng)涉(she)及(ji)多個系統(tong),包括(kuo)那些(xie)收集(ji)實時信息的系統(tong)。
關鍵運營和資(zi)本預算應(ying)與(yu)非關鍵設(she)施分開(kai),并且不(bu)應(ying)與(yu)其(qi)他建筑物或建筑物組合并。這應(ying)該(gai)包括一個(ge)成文的流程,以確保資(zi)金水平足夠并可以隨(sui)時根據(ju)業務期望來支持站點基(ji)礎結(jie)構。
數據中心有效產能利用率
數據中心的(de)部(bu)署應(ying)符(fu)合基于預期(qi)容量利(li)用(yong)(yong)的(de)既定總體規劃。這(zhe)可能會涉及基于特(te)定用(yong)(yong)途和設備密(mi)度模(mo)型的(de)不同部(bu)署策略(lve)。使用(yong)(yong)智(zhi)能工(gong)(gong)具來建立最佳的(de)機柜,電纜,IT,網絡和存儲設備布局,可以(yi)減少這(zhe)方(fang)面的(de)工(gong)(gong)作(zuo)量。這(zhe)些工(gong)(gong)具還能夠提供自(zi)動預配,資(zi)產和位置的(de)準確(que)記錄以(yi)及工(gong)(gong)作(zuo)單(dan)的(de)創建,以(yi)支持和協調本地和遠程(cheng)預配活動。
電源和(he)(he)熱管理(li)的(de)指導(dao)方針和(he)(he)程(cheng)序應成為數據中心日常運(yun)營(ying)不可(ke)或(huo)缺的(de)組成部分(fen)。從溫度(du)和(he)(he)濕度(du)設(she)置到新系統和(he)(he)電纜部署的(de)所有要素(su)都應遵(zun)循(xun)公認的(de)和(he)(he)易(yi)于理(li)解的(de)準則(ze)和(he)(he)政策,以優化(hua)可(ke)用(yong)的(de)電力利用(yong)率以及冷卻效率,并最大(da)程(cheng)度(du)地減(jian)少氣流阻塞和(he)(he)冷熱空氣混合。
如果數據(ju)中(zhong)心(xin)包含對環(huan)境(jing)和冷(leng)卻(que)要求有(you)明顯不同(tong)的設(she)備(例(li)如,EG磁帶存儲,磁帶簡倉,大型(xing)機,電信設(she)備,電池等(deng)),請(qing)將(jiang)該設(she)備放(fang)置在具有(you)單獨環(huan)境(jing)控制措(cuo)施的單獨區域(yu)中(zhong),以免損(sun)害整個數據(ju)的冷(leng)卻(que)能力中(zhong)心(xin)。
數據中心統籌管理
防止進行(xing)任何計(ji)劃(hua)外的(de)安裝,并(bing)確(que)保所有(you)設備(bei)的(de)安裝僅在獲得變更管理(li)批(pi)(pi)準后再進行(xing)詳細的(de)空間計(ji)劃(hua)和(he)設備(bei)規(gui)格,然后才能(neng)(neng)完成。所有(you)位于地板下(xia)的(de)通(tong)道均應經過變更管理(li)批(pi)(pi)準。工(gong)(gong)廠應參與IT變更管理(li)計(ji)劃(hua)和(he)批(pi)(pi)準,反之(zhi)亦然。這應該通(tong)過一(yi)套完整的(de)IT和(he)設施管理(li)(FM)/M&E工(gong)(gong)程(cheng)(cheng)變更管理(li),事(shi)件管理(li),能(neng)(neng)力(li)計(ji)劃(hua)程(cheng)(cheng)序來完成。IT和(he)FM/M&E工(gong)(gong)程(cheng)(cheng)都應包括在技術空間容量規(gui)劃(hua)中,并(bing)在所有(you)IT設備(bei)安裝中簽字。
從一開始,IT,FM/M&E工(gong)(gong)程和管(guan)理(li)人員(yuan)都應(ying)參與設計過程,以實現節省能源并滿足可靠性,性能,成(cheng)本控制和其他要(yao)求的解決(jue)方案(an)。通過這種包容性參與建立的更廣泛的團隊(dui)應(ying)將生命周期成(cheng)本作為主要(yao)的決(jue)策工(gong)(gong)具,IT和FM/E工(gong)(gong)程和管(guan)理(li)人員(yuan)在統一的管(guan)理(li)結構內(nei)應(ying)具有共同(tong)的目標(biao),目的和激(ji)勵措施。
數據中心標準很重要(yao)
了(le)解(jie)并介紹(shao)真正(zheng)的全(quan)球標準(例如(ru)ISO/IEC30134系(xi)(xi)列(lie)和新興的ISO/IECTS22237系(xi)(xi)列(lie))中的概念。例如(ru),如(ru)果(guo)正(zheng)在使用或(huo)報(bao)告(gao)PUE,則所有(you)測量和報(bao)告(gao)均應(ying)符合ISO/IEC30134-2。除了(le)根據此全(quan)球標準化KPl的要(yao)求進行(xing)報(bao)告(gao)以外,其他任何事情都不是真正(zheng)的PUE。
維(wei)護的目(mu)的是(shi)將數(shu)據中心站點保(bao)持在“新狀態(tai)”。這既(ji)可(ke)以(yi)減少(shao)由于設備(bei)故障引起(qi)的運(yun)行風險(xian),又可(ke)以(yi)確保(bao)保(bao)持較高的運(yun)行效(xiao)率,從而減少(shao)電力消(xiao)耗(hao)并(bing)因此降(jiang)低能源成本。
有效的維護始于(yu)完整而(er)全面的調(diao)試(shi)計劃,這對于(yu)確保站點基礎設(she)施一(yi)開(kai)始就按照設(she)計規范運行至關(guan)重要(yao)。盡可能采用(yong)預(yu)測性(基于條(tiao)件)以(yi)(yi)(yi)(yi)及預(yu)防性維(wei)護。這(zhe)種做法應采用(yong)趨勢分析(xi)和生(sheng)命周(zhou)期(qi)(qi)分析(xi),以(yi)(yi)(yi)(yi)及上面強調的定期(qi)(qi)審(shen)核。以(yi)(yi)(yi)(yi)這(zhe)種方式操作(zuo)既可以(yi)(yi)(yi)(yi)降(jiang)低(di)成本,又(you)可以(yi)(yi)(yi)(yi)更有效地降(jiang)低(di)風險。