第一篇:平谷區教育城域網中心機房市電故障及維護應急預案
平谷區教育城域網中心機房 市電故障及維護應急預案
一、機房意外停電后,首先確定停電的范圍以及受影響的設備范圍。
二、確認停電的范圍為本樓或片區,應立即打電話向后勤管理部門匯報。估算電力可能恢復的時間,并通知網絡中心相關人員及領導。
供電局值班電話:95598
三、操作步驟:
1.如果確認停電的時間是在UPS后備時間50%內(如后備時間為2小時,停電時間在1小時安全值內),可以在UPS正常供電的時間內,等到電力恢復。
2.如果不能確認在2個小時內恢復供電,立即匯報給機房電源維護負責人和中心機房各設備的負責人到達現場。做好各設備的電源停電準備。
(1)使用UPS供電,由于不知市電何時能恢復供電(或停電時間大于2小時),應嚴格按操作手冊停掉不重要的大屏顯示設備、監控設備、存儲和各應用服務器的電源,只保證核心交換機和路由器的正常運行。
(2)使用UPS供電達到2小時,還不知市電何時能恢復供電,此時需關閉全部網絡設備,再關閉UPS的輸出。
3.如果配備了發電機,在UPS供電達到1小時后,市電還不能 恢復供電,并且機房服務器、核心交換機等重要設備不能斷電情況下,應立刻調配發電機隨時做供電,切保機房重量設備正常運行。等待電力恢復,電力恢復供電后轉第七條執行。如果確認停電的范圍僅在于本機房電源故障,立即匯報給機房電源維護負責人。
四、機房維護負責人將掉電的電源柜總空開和分空開的狀態處于下電狀態。并向主管領導匯報,等待市電重新供電。
五、將掉電的所有的設備電源狀態處于下電狀態,以防止電源柜加電對設備的沖擊。
六、在等待市電供電的時候,相關機房管理維護人員共同研究商議設備恢復時操作步驟及注意的事項,并形成相關操作文檔。
七、市電恢復供電后,先不要急于給UPS加電,等待10—20分鐘后,再開始給UPS加電,以防止供電不穩或再次掉電。
八、供電正常后,確定設備處于下電狀態后,打開電力柜的總開關,并給UPS加電,打開UPS輸出開關。
九、根據設備加電順序,啟動分項空開。
十、設備加電順序: 1.IP交換機和SAN交換機; 2.交換設備正常后再給存儲加電;
3.存儲狀態檢查正常后,啟動主機(以上各設備務必按操作手冊的啟動順序上電)。
十一、設備啟動正常后,開始啟動數據庫。
十二、數據庫啟動正常后,開始啟動中間件服務器。
十三、中間件服務器正常后,啟動應用程序。
十四、其它:
1.四、五、六點操作只適應于機房沒有重要服務器、交換機等設備情況下,如果機房有重要設備不允許斷電下,第一把UPS后備時間延長,第二給機房配臺發電機組。
2.UPS主機及電池組要定期檢測保養,發現電池電壓下降情況應及時更換。
3.UPS在運行中顯示板由綠燈轉為紅燈并且有告警聲響,按下告警消聲鍵后觀察會不會再次出現告警聲,如果未再出現告警聲說明報警為假報警,如果還出現報警聲音要及時通知設備商處理。附:
一、PCM ONL 33系列不斷電電源供應系統(UPS)主要操作
(一)UPS啟動: 1.配電柜送市電;
2.合S1(保險絲輔助開關); 3.合S3(輸入市電);
4.接上步間隔10秒鐘合S4(保險); 5.合S5(輸出);
6.關閉S1(保險絲輔助開關);
7.控制面板:開啟UPS,先按下“ON”,再按下“Enter”進行確定。
(二)UPS關閉:
1.關閉網絡設備、服務器等用電設備; 2.斷開S3(市電); 3.斷開S5(輸出);
4.斷開S1(保險絲輔助開關); 5.斷開S4(保險); 6.配電柜斷開市電開關;
7.控制面板:關閉UPS,先按下“OFF”,再按下“Enter”進行確定。8.關閉時間:
(1)市電停電,不知何供電,需關閉UPS;
(2)網絡設備調整長時間停用(2小時以上),需關閉UPS。
(三)UPS放電:
1.斷開S3(市電),使用電池組供電;開始放電電壓DC=392V左右。2.待充電壓DC降到360V再恢復市電供電; 3.接上步合S3(輸入市電)。4.放電時間:
(1)如果市電停電比較頻繁,可以不進行放電操作;
(2)如果市電長時間不停電,則四個月左右進入一次放電操作。
(四)客服聯系方式:
1.北京承乾偉業電子科技有限公司
2.章方強(***)付玉(***)焦慎連(***)
二.JB-QB_Ld128EN(M)火災報警控制器(聯動型)主要操作
(一)報警主要顯示:
1.報警器上:主電工作(Power)、全局手動(Manual)、消音指示(Quiet)為綠燈;
2.報警器上:公共故障(Common Failure)、備電故障(Battery Failure)為桔黃色燈;
3.打印機輸出:日期、時間及主要故障
4.警鈴聲持續不斷,直至按下“消間指示”按鈕,可以消除鈴聲。
(二)報警器內使用畜電池:
1.畜電池型號:WA-12M14AC(12V14AH/20HR); 2.建議:控制箱內的畜電池每月進行一次放電操作:
方法是:關閉市電,啟用電池,使用電池約半小時再重新啟市電,對電池進行充電。3.畜電池維護工程師:
林玉春(***)
(三)消防系統安全檢查內容:
1.鋼瓶內安全氣壓為2.0~4.2(即綠色區域內)即為安全可以使用,當指針指向紅色區域時,應該重新加氣才可使用。2.鋼瓶氣體噴射有三種控制途徑:
(1)最南邊的手動閥控制,延時30秒,可以按下停止閥以停止噴射;(2)按下中間的控制箱內的啟動閥,也可延時30秒,可以按下停止閥以停止噴射,此控制箱有手動、自動兩個鎖,現在置于自動處,沒有鑰匙,林工建議置于手動處;
(3)系統自動控制即右邊的控制箱,現在均設置為手動狀態,以防止誤報行為的發生。3.檢查時間要求:
每學期至少檢查一次,及時更換畜電池以及色帶。
(四)機房換氣系統: 1.空調:
(1)空調均為立式柜機,室外機在南陽臺內;
(2)主要工作模式-大金、愛默生工業機房專用空調,可連續工作;(3)當大金、愛默生空調出現問題時,使用海爾空調,待其修好后,仍使用大金、愛默生工業機房專用空調 2.新風系統:
(1)開關位于配電柜左側,四聯開關,分別為開、關、低、高;(2)新風系統出氣窗在南墻上部頂棚內。3.消防排汽系統:
(1)開關位于門口左側,與照明開關并列,左邊是開啟消防排汽系統,右邊為關閉消防排汽系統;
(2)消防排汽系統排汽風機在南墻靠近消防汽瓶處。4.辦公區空調:
(1)空調掛機位于中心機房北部外間西墻;(2)空調室外機在北樓道內。
三、中心機房綜合布線系統簡介:
(一)強電部分:(詳見下面附圖)
1.中心機房設備用電是市電五線三相380伏接入,自北樓道頂部進入中心機房,再經墻體內下至地面,經防靜電地板下的線槽進入配電柜;再到UPS系統,然后返回配電柜,最終向各機柜供電。每個機柜配兩個地插座,在配電柜內用兩個防漏電開關控制,外間辦公室 也提供兩個地插座。
2.中心機房內的空調供電不經過UPS系統,由市電直接供電; 3.消防排汽系統風楊也由市電直接供電;
(二)弱電部分:
1.1號機柜為城域網核心機房安全監測系統設備(拼接器、視頻錄像機、環境監測主機、保壘機、展示機)。
2.2號機柜上面是北京數字學校存放的兩臺服務器,下面是教委網站服務器(兩臺)及存儲服務器。
3.3號機柜六臺服務器(卡巴斯基、環境監測虛擬機、備用服務器、FTP服務器、中學網絡電子閱卷服務器、小學網絡電子閱卷服務器)及一臺存儲服務器。
4.4號機柜六臺服務器(VMware服務器、環境監測服務主機、備用服務器、RIIL服務器、備用服務器、備用服務器)及一臺備用存儲服務器。
5.5號機柜上面是網絡電子閱卷系統的兩人個網關及策略交換機(H3C S5500)服務器匯聚交換機(H3C S7510E),全部服務器的網線均匯聚到此機柜的配線架。
6.光纖接入在6號機柜,并由此連接網絡設備,下面是各室網絡信息點的配線架。
7.7號機柜上面是北京教育信息網的接入設備為(CISCO s6506),中間為城域網備份核心交換機(H3C S7506E),最下面為信息中心辦公及多媒體教室的匯聚交換機(H3C s5600)。8.8號機柜內為城域網核心交換機(H3C S12508)及安全設備(流控-RG-EG 2000xe、防火墻-SANGFORAF-6020、負載均衡-SANGFORAD-6000),及電子巡考系統接入交換機(H3C S5800)。
9.9號機柜備用(為資源平臺系統備用)。
10.10號機柜為教委OA協同辦公系統服務器(兩臺)和校產服務器(一臺)。
11.0號機柜內為中國電信接入設備專用。
12.中心機房內全部網絡設備的硬件地址均在58.131.66.0/24網段,詳見配線架IP地址使用、分配列表;
13.中心機房外間辦公室地板下有電源插座和信息插座以供使用。
14.拼接屏的電源接在下面防靜電地板下,拿開地板可見。
第二篇:中心機房應急預案
中心機房應急預案
一、系統故障應急流程
1.1 系統故障應急流程說明
一、故障發生
值班人員可從以下途徑得知故障的發生: 1)值班人員通過報警系統告警發現故障 2)值班人員通過遠程數據監測發現故障 3)值班人員通過維護巡檢發現故障 4)系統用戶發現故障,報給呼叫值班人員
二、報障受理
值班人員發現系統故障發生后,立即響應,根據級別進行應急處理,并向相關領導報告系統故障情況。
三、信息研判
值班人員根據了解到的系統故障情況進行分析判斷,以確定采用一般故障處理流程還是立即啟動系統突發故障應急處理預案。
四、預案啟動
如需啟動應急預案,則立刻通知相關領導小組,由相關領導小組啟動應急預案,對系統突發故障應急事件進行全面管控處理。
五、資源確認
系統突發故障應急預案啟動后,首先是根據現場突發故障實際狀況、緊急程度、技術難度、備品備件等情況對相關資源(主要是參與人員)依據經驗進行調度和確認,主要有以下資源:
本單位相關技術支持人員 授權第三方公司技術支持人員; 故障設備相關廠家技術支持人員; 聘請的技術專家
六、預案執行
按照既定的預案進行突發事件處理和故障搶修,如遇到問題及時向相關領導小組匯報。
七、預案終止
預案的終止時間由故障現場技術人員根據現場的實際進展情況,在與用戶單位有關部門協調后相關領導小組決定。
八、結果上報
預案中止后,相關預案參與人員將整個事件過程中所有收發信息、領導批示、事故調查報告、現場錄像、圖片等材料及時整理歸檔,并總結事件處理過程中的經驗和教訓,修改、完善事件應急預案。然后集中上報至相關領導小組。
1.2 系統故障應急處理流程圖
機房應急預案
3.1 機房漏水應急預案
(1)發生機房漏水時,第一目擊者應立即檢測漏水影響范圍,并及時報告相關領導小組。
(2)若空調系統出現滲漏水,值班人員應立即安排停用故障空調,清除機房積水,并及時聯系設備供應方處理,同時啟動備用空調,必要情況下可其它方式(通風、冰塊降溫等)對服務器進行降溫。
(3)若為墻體或窗戶滲漏水,值班人員應立即采取有效措施確保機房安全,同時安排通知房屋產權方,及時清除積水,維修墻體或窗戶,消除 滲漏水隱患。
3.2 設備發生被盜或人為損害事件應急預案
(1)發生設備被盜或人為損害設備情況時,使用者或管理者應立即報告相關領導小組,同時保護好現場。
(2)相關領導小組接報后,通知用戶保衛部門、相關領導,一同核實審定現場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。
(3)值班人員應當積極配合公安部門進行調查,并將有關情況向相關領導小組匯報。(4)相關領導小組安排相關技術人員及時恢復系統正常運行,并對事件進行調查。值班人員應在調查結束后三日內書面報告相關領導小組。
3.3 機房長時間停電應急預案
(1)接到長時間停電通知后,值班人員應及時通過辦公系統、電話等發布相關信息,部署應對具體措施,要求相關保障人員在停電前及時就位,檢查業務系統、保存數據。
(2)停電時間過長的,應準備充足燃油,并準備租用電力公司發電車協助,保證系統正常運轉。3.4 通信網絡故障應急預案
(1)發生通信線路中斷、路由故障、流量異常、業務系統故障后,操作員應及時通知本單位相關系統管理員,經初步判斷后及時上報值班人員和相關領導小組。
(2)值班人員接報告后,應及時查清通信網絡故障位置,隔離故障區域,并將事態及時報告相關領導小組,通知相關通信網絡運營商查清原因;同時及時組織相關技術人員檢測故障區域,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。
(3)事態或后果嚴重的,應及時向相關領導匯報。
(4)應急處置結束后,值班人員應將故障分析報告,在調查結束后三日內書面報告相關領導小組。
3.5 不良信息和網絡病毒事件應急預案
(1)發現不良信息或網絡病毒時,信息系統管理員應立即斷開網線,終止不良信息或網絡病毒傳播,并報告相關系統維護人員和相關領導小組。
(2)值班人員應根據相關領導小組指令,采取隔離網絡等措施,及時殺毒或清除不良信息,并追查不良信息來源。
(3)事態或后果嚴重的,應向總公司相關領導匯報。
(4)處置結束后 ,值班人員應將事發經過、造成影響、處置結果在調查工作結束后三日內書面報告相關領導小組。
3.6 服務器軟件系統故障應急預案
(1)發生服務器軟件系統故障后,值班人員應立即組織啟動備份服務器系統,由備份服務器接管業務應用,并及時報告相關領導小組;同時安排相關責任人將故障服務器脫離網絡,保存系統狀態不變,取出系統鏡像備份磁盤,保持原始數據。
(2)值班人員應根據相關領導小組的指令,在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;若重啟失敗,立即聯系相關廠商和上級單位,請求技術支援,作好技術處理。(3)事態或后果嚴重的,總公司相關領導匯報。
(4)處置結束后,值班人員應將事發經過、處置結果等在調查工作結束后三日內報告相關領導小組。
3.7 黑客攻擊事件應急預案
(1)當發現網絡被非法入侵、業務內容被篡改,應用服務器上的數據被非法拷貝、修改、刪除,或通過入侵檢測系統發現有黑客正在進行攻擊時,使用者或管理者應斷開網絡,并立即報告相關領導小組。
(2)接報告后,相關領導小組應立即指令相關技術人員核實情況,關閉服務器或系統,修改防火墻和路由器的過濾規則,封鎖或刪除被攻破的登陸帳號,阻斷可疑用戶進入網絡的通道。
(3)值班人員應及時清理系統,恢復數據、程序,恢復系統和網絡正常;情況嚴重的,應向總公司相關領導匯報,并請求支援。
(4)處置結束后 ,值班人員應將事發經過、處置結果等在調查工作結束后三日內報告相關領導小組。
3.8 核心設備硬件故障應急預案
(1)發生核心設備硬件故障后,值班人員應及時報告相關領導小組,并組織查找、確定故障設備及故障原因,進行先期處置。
(2)若故障設備在短時間內無法修復值班人員應啟動備份設備,保持系統正常運行;將故障設備脫離網絡,進行故障排除工作。
(3)值班人員故障排除后,在網絡空閑時期,替換備用設備;若故障仍然存在,立即聯系相關廠商,認真填寫設備故障報告單備查。
(4)事態或后果嚴重的,應向總公司相關領導匯報。
3.9 業務數據損壞應急預案
(1)發生業務數據損壞時,值班人員應及時報告相關領導小組,檢查、備份業務系統當前數據。(2)值班人員負責調用備份服務器備份數據,若備份數據損壞,則調用磁帶機中歷史備份數據,若磁帶機數據仍不可用,則調用異地備份數據。
(3)業務數據損壞事件超過 X小時后,維護小組應及時報告相關領導,及時通知業務部門以其它方式開展業務。
(4)值班人員應待業務數據系統恢復后,檢查歷史數據和當前數據的差別,由相關系統業務員補錄數據;重新備份數據,并寫出故障分析報告,在調查工作結束后三日內報告相關領導。
3.10 雷擊事故應急預案
(1)遇雷暴天氣或接上級部門雷暴氣象預警,值班人員應及時報告相關領導,經請示同意后關閉部分服務器,切斷電源,暫停內部計算機部分網絡工作。
(2)雷暴天氣結束后,值班人員報經相關領導小組同意,及時開通服務器,恢復停用的計算機網絡工作,對設備和數據進行檢查。
(3)因雷擊造成損失的,值班人員應會同相關部門進行核實、報損,并在調查工作結束后三日內書面報告相關領導小組。必要時,應向總公司相關領導匯報。
四、機房動力系統應急處理方案
在機房動力發生異常情況時,動力系統通常可自動切換由備用電池提供機房設備的動力,在發生重大事故或自然災害而無法短時間內正?;謴蜋C房動力的情況下,啟動機房動力系統應急處理流程,采用應急油機發電,確保用戶單位網點通信網絡能夠安全、高效和可靠地運行。具體流程見下圖: 監控到機房動力異常告警 通知維護站赴現場,監視動力系統電壓下降情況 停電時間超過備用電池的合適支撐時間? 否 是 通知相關部門協助排查動力系統故障 超過蓄電池允許放電電壓,立即啟動油機發電 動力恢復 關閉油機供電開關 關閉電源柜油機開關 關閉/拆除油機 市電供電/蓄電池充電正常 消障
當發生長時間停電的動力系統故障時,搶修人員在機房現場實時測試記錄備用電池的放電情況,電池放電容量超過40%時,如果動力系統還沒有恢復正常供電,就用油機發電為機房提供動力。
動力系統恢復后立即對電池進行均充。一天內發生多次停電,放電容量在50%以下,均充轉浮充后,浮充時間不少于24小時。一次停電放電容量在50%~80%時,均充轉浮充后,浮充時間不少于48小時。
第三篇:中心機房火災應急預案
為規范本酒店網絡中心機房設備管理,提高處理酒店網絡突發事件的能力,形成反應迅速的應急工作機制,確保重要網絡設備和服務器硬件安全以及運行安全和數據安全,最大限度地減少突發事件造成的危害,特制定《網絡中心機房應急預案及管理辦法》。
篇一:中心機房管理辦法
第一條 機房內禁止明火禁止吸煙,機房內的所有設備需要定期維護并做巡檢記錄、根據機房實際情況進行清掃工作。
第二條 機房網絡設備維護由網絡管理員進行,如發現機器故障應及時排除故障,在遇到硬件三包范圍內的故障時,應及時聯系供應公司上門或將機器送供應公司維修;
第三條 酒店員工必須嚴格遵守有關機房、設備及系統運行管理規定,不得在機房內從事與系統管理、運行維護、系統安裝和調試等無關的工作;
第四條 做好防火、防雨、防濕、防盜工作,注意用電安全;機房內的環境要每周檢查溫度、濕度、電力系統、是否滿足機房相關的標準要求。
第五條 機房內的交換機和服務器系酒店運營的關鍵設備,任何人不得自行配置或更改其系統參數。
第六條 要做好機房的安全工作,對服務器的各種帳戶、密碼嚴格保密。
第七條 應及時做好數據的備份工作,保證在系統發生故障時,數據能夠快速、安全的恢復。所有備份數據不得更改,并要求做到本地和異地分別備份保存。
第八條 為了確保本酒店網絡正常運行,每日對機房內的設備進行巡視,主要著重于服務器及網絡設備運行正常與否。
1、對機房里的溫度進行調節,如室內溫度過高,調節空調對機房進行有效的通風。
2、查看交換機與防火墻及接入設備的工作狀態,如發生異常,對其進行及時有效的維護。
3、監測網絡運行狀況。
第九條 除本酒店網絡管理員外,公司其他人員因工作需要進入機房的,需網絡管理員陪同下進入機房。
第十條 嚴禁帶外單位人員或無關人員進入機房,確因工作需要,如:系統故障診斷和處理,設備維修維護、系統或設備安裝等進入機房,必須由網絡管理員陪同進入,配合項目的實施。
第十一條 進入機房的設備應在進入機房前拆除外包裝,以保證機房環境的清潔和安
第十二條 嚴禁攜帶易燃、易爆、易腐蝕等危險性物品進入機房。
第十三條 機房內提供的UPS電源只允許為主機、服務器、網絡及存儲等核心設備供電,嚴禁安插其他設備,增加UPS電源供電負荷。
第十四條 嚴禁擅自切斷供電系統,確因工作需要斷電時,首先應做好相應準備工作,經部門領導批準,然后給所有部門發放斷電或斷網通知,最后方可實施。
第十五條 機房內安裝用電設備或有用電需求的項目時,必須經過專業人員或設備提供商的安裝工程師進行現場勘查,經確認在滿足或符合要求后工程才能實施。
篇二:中心機房突發事件應急預案
第一條 機房突發事件包括網絡設備或服務器故障、自然災害(水、火、電等)造成的物理破壞、人為失誤造成的安全事件等等。針對突發事件的預防措施如下: 建立安全、可靠、穩定運行的機房環境,防火、防盜、防雷電、防水、防靜電、防塵;建立備份電源系統;加強防火、防盜意識。
第二條 機房漏水應急預案如下:
1、發生機房漏水時,第一目擊者應立即通知機房管理人員。
2、若空調系統出現滲漏水,機房管理人員應立即安排停用故障空調,清除機房積水,并及時聯系設備供應方處理,必要情況下可臨時用電扇對服務器進行降溫。
3、若為墻體或窗戶滲漏水,機房管理人員應立即采取有效措施確保機房安全,同時安排通知工程人員及時清除積水,維修墻體或窗戶,消除滲漏水隱患。
第三條 機房火災應急預案如下:
1、完善機房環境,確保機房放置滅火器;禁止攜帶易燃易爆物品進入機房。
2、機房管理人員應熟悉機房內部消防安全操作和規則,了解消防設備操作原理,掌握消防應急處理步驟、措施和要領,懂得滅火的方法,會撲救初起火源。
3、一旦發生火災,迅速切斷機房電源,避免災情的擴散,并迅速和保安部聯系必要時立即報火警。
第四條 機房停電應急預案如下:
1、接到停電通知后,應及時通過辦公系統、電話等發布相關信息,部署應對具體措施,要求在停電前停止業務、保存數據。
2、機房管理人員每日檢查UPS電源的狀態,確保在突發停電時,UPS電源能自動供應服務器正常工作15分鐘以上,保證員工工作的數據及時保存。
第五條 通信網絡故障應急預案如下:
1、發生通信線路中斷、流量異常等故障后,發現狀況的員工或部門領導應及時通知網絡管理員。
2、網絡管理員了解情況后,迅速組織檢測故障區域,并作相關故障處理,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。
第六條 服務器故障應急預案如下:
1、機房管理人員每日檢查機房內各服務器狀態。
2、定期備份數據服務器數據。并將備份資料拷貝到移動設備。服務器出現嚴重硬件故障時啟用備用服務器以保障正常運轉。
第四篇:ACC中央機房空調故障應急預案
ACC中央機房空調故障應急預案
一、目的
為有效避免ACC機房因空調停電造成ACC服務器非正常關機,同時降低由于非正常關機對ACC主數據庫的影響,特制定此預案。
二、適用范圍
本預案適用于南京地鐵大廈四樓ACC主機房(429房間)發生空調停機后,機房溫度超過標準溫度的情況。
三、具體流程 1.先期處置
清分監控維護工班發現ACC主機房空調故障或ACC主機房的無線溫度報警器報警后,立即采取以下措施:
(1)檢查空調運行狀況,并對空調故障進行嘗試性修復,并且通知空調廠家(24小時:***)。(2)打開主機房大門,在主機房內放置電風扇輔助散熱。(3)在機柜內放入溫濕度計,監控機柜溫度。(4)電話告知部門領導及相關工程師。
(5)電話通知ACC承包商趕到現場進行技術援助。2.應急響應及措施
清分監控維護工班在應急人員到達前,注意以下問題:
(1)繼續嘗試修復空調。
(2)關注機柜內溫濕度計的溫度變化。
一小時后,空調廠家、ACC承包商和部門相關工程師趕到現 場后立即展開行動:
(1)空調廠家進行空調故障搶修。
(2)ACC承包商對ACC主機房內的設備進行檢查,做好溫度過高需要關機前的準備工作。
(3)部門相關工程師做好現場協調和指揮工作。
當機房內溫度達到35度時,部門相關工程師立即電話部門領導申請主機房內所有設備正常進行關機(如溫度在應急人員未到位或在發現機房空調故障時已達到35度,由清分監控維護工班立即電話部門領導及系統管理工程師申請主機房內所有設備正常進行關機),經領導同意后,采取以下措施:
(1)將數據接入服務器上的FTP服務和實時報文傳輸服務停止,同時電話告知票務中心ACC已經中斷與所有線路的連接。(2)按以下順序進行關機操作:首先關閉所有的PC服務器,然后關閉所有的磁盤陣列,再關閉所有的小型機和磁帶庫,最后關閉所有的網絡設備。
3.故障修復及后期處置
空調故障修復后,室內溫度降至正常溫度后,清分監控維護工班需要完成以下后期工作:
(1)將主機房內的溫濕度計和電風扇拿出主機房。
(2)電話告知部門領導空調故障已經修復,機房溫度正常,同時向部門領導申請主機房所有設備開機。ACC承包商需要完成以下工作:(1)做好開機前的檢查工作。
(2)按正常開機順序開機,開機順序為:首先開啟所有的網絡設備,然后開啟所有的小型機和磁帶庫,再開啟所有磁盤陣列,最后開啟所有的PC服務器。
(3)將數據接入服務器上的FTP服務和實時報文傳輸服務開啟。
空調廠家完成最后一次空調檢查工作。
清分監控維護工班對ACC系統的數據傳輸情況、客流監視、設 備監視等情況進行檢查,如有問題,立即交由ACC承包商處理。
最后,清分監控維護工班電話電話告知票務中心ACC已經恢復 與所有線路的連接,然后由清分監控維護工班工班長做一份故障分析報告,主要包括事情經過、原因分析、應急處理過程分析和預防建議等方面內容,于次日交部門領導和部門相關工程師。
第五篇:IDC中心機房預防措施及應急預案
IDC機房維保預防措施及應急預案
IDC數據中心機房的安全無疑是整個計算機信息系統安全的前提,如果數據中心機房存在這樣那樣的不安全因素,從而導致發生數據中心機房事故,則整個信息系統的安全也就不可能實現。
隨著網絡信息化建設的不斷深入,加強機房各類設備、系統以及信息與網絡安全等方面應對突發事件的處理能力將是我們目前面臨的一項重要任務。為確保系統及機房安全與穩定,以保證正常運行為宗旨,按照“預防為主,積極處置”的原則,本著建立一個有效處置突發事件,建立統一指揮、職責明確運轉有序、反應迅速處置有力的機房安全體系的目標,將正在發生或已發生事故的損害程度減輕到最低。
1、維保預防措施
1、建立健全機房維保技術人員管理制度
1.1在正常工作日內,信息技術人員負責對機房進行監控,主要職責是:巡視網絡設備及系統的運行情況,發生異常情況及時處理,消除故障隱患。
1.2周末、節假日及重大會議期間技術人員輪流值班,負責處理有關異常情況。
2、應提高對機房可靠性、可用性、安全性等方面的認識,既要重視信息系統安全,又要重視機房的運行維護管理,重視對計算機硬件、軟件及網絡設備的維護。要樹立大局意識和憂患意識,對機房設施安全的重要性給予足夠的重視。
3、應重點加強管理制度的執行。管理制度包括預防維護流程和緊急情況處理預案兩個方面。要制定相應的管理制度,包括機房管理崗位制度、機房操作規程等,以明確崗位職責。為應對機房中可能會發生的緊急情況,如火災、斷電、數據丟失、設備失靈等,應按各種緊急情況分列處置措施,還要對預案進行演練。
4、應不斷提高機房管理人員的技術水平。機房設施非常復雜,涉及很多專業和系統,維護人員只有通過不斷的總結以往出現的各種問題進行后續學習和培訓,提高技術水平,才能避免更多的相同的問題及異常情況甚至事故的發生。
5.應加強供配電、照明等電源子系統的監測。同時應重點對溫度、濕度、灰塵、有害氣體等進行評估和監測。還要加強靜電防護、干擾源分析及保護、雷擊
防護、電磁干擾、振動控制,防火、防水等工作。
5、應加強對進入機房人員的管理。工作人員行為、素質等因素均可能對機房安全造成影響,因此,除管理制度約束外,門禁和視頻監視等物理安全策略均可有效提高機房安全水平。
7、應定期對機房設施進行安全評估。最好每年聘請第三方機構進行安全評估,專業評估機構擁有專家力量,能夠比較安全地對所有的設備進行操作,不會因為誤操作引起機房故障。
8、機房內嚴格采取防雷、防火、防塵、防靜電等措施以及機房24小時監控等措施。
9、認真做好數據備份工作,定期做一次數據庫完全備份,每月檢查服務器運行和備份情況。
10、對機房的主要網絡設備(路由器、主干交換機等)進行工作時間內全程監控,發現異常情況應及時進行處理,確保整個網絡的正常運行。
2、應急處置措施
2.1 機房漏水應急預案
(1)發生機房漏水時,第一目擊者應立即通知運維服務小組,并及時報告監控系統突發故障應急領導小組。
(2)若空調系統出現滲漏水,運維服務小組負責人應立即安排停用故障空調,清除機房積水,并及時聯系設備供應方處理,同時啟動備用空調,必要情況下可臨時用備用空調對服務器進行降溫。
(3)若為墻體或機房門滲漏水,運維服務小組負責人應立即采取有效措施確保機房安全,及時清除積水,維修墻體或門窗,消除滲漏水隱患。2.2 設備發生被盜或人為損害事件應急預案
(1)發生設備被盜或人為損害設備情況時,使用者或管理者應立即報告系統突發故障應急領導小組,同時保護好現場。
(2)系統突發故障應急領導小組接報后,通知用戶保衛部門、相關領導,一同核實審定現場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。
(3)事發單位和當事人應當積極配合公安部門進行調查,并將有關情況向系統突發故障應急領導小組匯報。
(4)系統突發故障應急領導小組安排運維服務小組、事發單位及時恢復系統正常運行,并對事件進行調查。運維服務小組和事發單位應在調查結束后一日內書面報告系統突發故障應急領導小組。事態或后果嚴重的,應向相關領導匯報。2.3 機房長時間停電應急預案
(1)定期檢查機房供電設備的運行狀況和電路線纜器材情況,當發生下列突發事件時,按照以下方案進行處置:
(2)當機房發生市電供電突然停電或是電源異常時。首先應和后勤部門聯系確認正常停電以及預計停電時間。檢查不間斷電源的電池可供電時間,確保設備正常運行,如遇到突然斷電,應及時將空調等不在UPS電源供電范圍內的設備及時斷電,預防突然來電時瞬間電流過大導致設備損壞等現象。
(3)當確定停電時間超出機房UPS承載范圍后,首先確定停電的范圍以及受影響的設備范圍。并及時通知各部門做好停電應急準備。然后通知機房電源維護人和設備的負責人到達現場,做好各設備的電源停電準備。在UPS供電電量僅剩10%之后,嚴格按操作手冊停掉各服務器的電源,最后停核心交換機和路由器,等待電力恢復。
(4)當確定停電原因是在本身供電系統范圍內,立即匯報給負責領導,并及時聯系相關維護人員達到現場檢修。對于恢復時間無法預計的,要通知后勤部門做好柴油機發電及移動電源車供電準備
(5)恢復供電后,嚴格按照操作程序逐步恢復機房設備和UPS的供電,以防瞬間電流過大造成設備損壞。
2.4 通信網絡故障應急預案
(1)發生通信線路中斷、路由故障、流量異常、域名系統故障后,操作員應及時通知本單位信息系統管理員,經初步判斷后及時上報運維服務小組和系統突發故障應急領導小組。
(2)運維服務小組接報告后,應及時查清通信網絡故障位置,隔離故障區
域,并將事態及時報告系統突發故障應急領導小組,通知相關通信網絡運營商查清原因;同時及時組織相關技術人員檢測故障區域,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。
(3)事態或后果嚴重的,應向應急指揮辦公室和相關領導匯報。(4)應急處置結束后,運維服務小組應將故障分析報告,在調查結束后一日內書面報告系統突發故障應急領導小組。2.5網絡病毒事件應急預案
(1)發現不良信息或網絡病毒時,信息系統管理員應立即斷開網線,終止不良信息或網絡病毒傳播,并報告指揮調度中心運維服務小組和系統突發故障應急領導小組。
(2)運維服務小組應根據系統突發故障應急領導小組指令,采取隔離網絡等措施,及時殺毒或清除不良信息,并追查不良信息來源。
(3)事態或后果嚴重的,應向監控中心辦公室和相關領導匯報。(4)處置結束后 ,運維服務小組應將事發經過、造成影響、處置結果在調查工作結束后一日內書面報告系統突發故障應急領導小組。2.6 服務器軟件系統故障應急預案
(1)發生服務器軟件系統故障后,運維服務小組負責人應立即組織啟動備份服務器系統,由備份服務器接管業務應用,并及時報告系統突發故障應急領導小組;同時安排相關責任人將故障服務器脫離網絡,保存系統狀態不變,取出系統鏡像備份磁盤,保持原始數據。
(2)運維服務小組應根據系統突發故障應急領導小組的指令,在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;若重啟失敗,立即聯系相關廠商和上級單位,請求技術支援,作好技術處理。
(3)事態或后果嚴重的,應向監控中心應急指揮辦公室和相關領導匯報。(4)處置結束后,運維服務小組應將事發經過、處置結果等在調查工作結束后一日內報告系統突發故障應急領導小組。
2.7 黑客攻擊事件應急預案
(1)當發現網絡被非法入侵、網頁內容被篡改,應用服務器上的數據被非法拷貝、修改、刪除,或通過入侵檢測系統發現有黑客正在進行攻擊時,使用者或管理者應斷開網絡,并立即報告系統突發故障應急領導小組。
(2)接報告后,系統突發故障應急領導小組應立即指令運維服務小組核實情況,關閉服務器或系統,修改防火墻和路由器的過濾規則,封鎖或刪除被攻破的登陸帳號,阻斷可疑用戶進入網絡的通道。
(3)運維服務小組應及時清理系統,恢復數據、程序,恢復系統和網絡正常;情況嚴重的,應向監控中心應急指揮辦公室和相關領導匯報,并請求支援。
(4)處置結束后 ,運維服務小組應將事發經過、處置結果等在調查工作結束后一日內報告系統突發故障應急領導小組。2.8 核心設備硬件故障應急預案
(1)發生核心設備硬件故障后,運維服務小組應及時報告系統突發故障應急領導小組,并組織查找、確定故障設備及故障原因,進行先期處置。
(2)若故障設備在短時間內無法修復運維服務小組應啟動備份設備,保持系統正常運行;將故障設備脫離網絡,進行故障排除工作。
(3)運維服務小組故障排除后,在網絡空閑時期,替換備用設備;若故障仍然存在,立即聯系相關廠商,認真填寫設備故障報告單備查。
(4)事態或后果嚴重的,應向監控中心應急指揮辦公室和相關領導匯報。2.9 業務數據損壞應急預案
(1)發生業務數據損壞 時,運維服務小組應及時報告系統突發故障應急領導小組,檢查、備份業務系統當前數據。
(2)運維服務小組負責調用備份服務器備份數據,若備份數據損壞,則調用磁帶機中歷史備份數據,若磁帶機數據仍不可用,則調用異地備份數據。
(3)業務數據損壞事件超過 2小時后,運維服務小組應及時報告系統突發故障應急領導小組,及時通知業務部門以手工方式開展業務。
(4)運維服務小組應待業務數據系統恢復后,檢查歷史數據和當前數據的差別,由相關系統業務員補錄數據;重新備份數據,并在工作結束后一日內報告系統突發故障應急領導小組。2.10 雷擊事故應急預案
(1)遇雷暴天氣或接上級部門雷暴氣象預警,運維服務小組應及時報告系統突發故障應急領導小組,經請示同意后關閉部分服務器,切斷電源,暫停內部計算機部分網絡工作。
(2)雷暴天氣結束后,運維服務小組報經系統突發故障應急領導小組同意,及時開通服務器,恢復內部計算機網絡工作,對設備和數據進行檢查。
(3)因雷擊造成損失的,運維服務小組應會同相關部門進行核實、報損,并在調查工作結束后一日內書面報告系統突發故障應急領導小組。必要時,應向監控中心應急指揮辦公室和相關領導匯報。2.11 空調設備故障應急預案
若機房專用空調損壞,應第一時間啟用機房備用空調,并通知廠家上門進行維修,并及時報告相關領導請示,獲得授權后按機房設備關閉順序關閉各類設備。2.12 火災事故應急預案
(1)一旦機房發生火災,應遵照下列原則:首先確保人員安全;其次保護關鍵設備、數據安全;三是保護一般設備安全;
(2)人員疏散的程序是:機房工作人員立即按響火警警報,并通過119電話向公安消防請求支援,所有人員戴上防毒面具,所有不參與滅火的人員按照預先確定的線路,迅速從機房中撤出;
(3)人員滅火的程序是:首先切斷所有電源,啟動自動噴淋系統或使用滅火器,滅火值班人員戴好防毒面具,從指定位置取出泡沫滅火器進行滅火。2.13 電源設備故障應急預案
機房目前使用UPS系統,在緊急情況發生時,應按如下步驟進行關機:(1)確認所有負載均已安全關機。
(2)關閉UPS負載電源。
(3)將UPS的系統啟用開關切換到off 的狀態。(4)將電池連接斷路器切換到off的位置。