第一篇:IDC中心機房預(yù)防措施及應(yīng)急預(yù)案
IDC機房維保預(yù)防措施及應(yīng)急預(yù)案
IDC數(shù)據(jù)中心機房的安全無疑是整個計算機信息系統(tǒng)安全的前提,如果數(shù)據(jù)中心機房存在這樣那樣的不安全因素,從而導(dǎo)致發(fā)生數(shù)據(jù)中心機房事故,則整個信息系統(tǒng)的安全也就不可能實現(xiàn)。
隨著網(wǎng)絡(luò)信息化建設(shè)的不斷深入,加強機房各類設(shè)備、系統(tǒng)以及信息與網(wǎng)絡(luò)安全等方面應(yīng)對突發(fā)事件的處理能力將是我們目前面臨的一項重要任務(wù)。為確保系統(tǒng)及機房安全與穩(wěn)定,以保證正常運行為宗旨,按照“預(yù)防為主,積極處置”的原則,本著建立一個有效處置突發(fā)事件,建立統(tǒng)一指揮、職責(zé)明確運轉(zhuǎn)有序、反應(yīng)迅速處置有力的機房安全體系的目標(biāo),將正在發(fā)生或已發(fā)生事故的損害程度減輕到最低。
1、維保預(yù)防措施
1、建立健全機房維保技術(shù)人員管理制度
1.1在正常工作日內(nèi),信息技術(shù)人員負(fù)責(zé)對機房進行監(jiān)控,主要職責(zé)是:巡視網(wǎng)絡(luò)設(shè)備及系統(tǒng)的運行情況,發(fā)生異常情況及時處理,消除故障隱患。
1.2周末、節(jié)假日及重大會議期間技術(shù)人員輪流值班,負(fù)責(zé)處理有關(guān)異常情況。
2、應(yīng)提高對機房可靠性、可用性、安全性等方面的認(rèn)識,既要重視信息系統(tǒng)安全,又要重視機房的運行維護管理,重視對計算機硬件、軟件及網(wǎng)絡(luò)設(shè)備的維護。要樹立大局意識和憂患意識,對機房設(shè)施安全的重要性給予足夠的重視。
3、應(yīng)重點加強管理制度的執(zhí)行。管理制度包括預(yù)防維護流程和緊急情況處理預(yù)案兩個方面。要制定相應(yīng)的管理制度,包括機房管理崗位制度、機房操作規(guī)程等,以明確崗位職責(zé)。為應(yīng)對機房中可能會發(fā)生的緊急情況,如火災(zāi)、斷電、數(shù)據(jù)丟失、設(shè)備失靈等,應(yīng)按各種緊急情況分列處置措施,還要對預(yù)案進行演練。
4、應(yīng)不斷提高機房管理人員的技術(shù)水平。機房設(shè)施非常復(fù)雜,涉及很多專業(yè)和系統(tǒng),維護人員只有通過不斷的總結(jié)以往出現(xiàn)的各種問題進行后續(xù)學(xué)習(xí)和培訓(xùn),提高技術(shù)水平,才能避免更多的相同的問題及異常情況甚至事故的發(fā)生。
5.應(yīng)加強供配電、照明等電源子系統(tǒng)的監(jiān)測。同時應(yīng)重點對溫度、濕度、灰塵、有害氣體等進行評估和監(jiān)測。還要加強靜電防護、干擾源分析及保護、雷擊
防護、電磁干擾、振動控制,防火、防水等工作。
5、應(yīng)加強對進入機房人員的管理。工作人員行為、素質(zhì)等因素均可能對機房安全造成影響,因此,除管理制度約束外,門禁和視頻監(jiān)視等物理安全策略均可有效提高機房安全水平。
7、應(yīng)定期對機房設(shè)施進行安全評估。最好每年聘請第三方機構(gòu)進行安全評估,專業(yè)評估機構(gòu)擁有專家力量,能夠比較安全地對所有的設(shè)備進行操作,不會因為誤操作引起機房故障。
8、機房內(nèi)嚴(yán)格采取防雷、防火、防塵、防靜電等措施以及機房24小時監(jiān)控等措施。
9、認(rèn)真做好數(shù)據(jù)備份工作,定期做一次數(shù)據(jù)庫完全備份,每月檢查服務(wù)器運行和備份情況。
10、對機房的主要網(wǎng)絡(luò)設(shè)備(路由器、主干交換機等)進行工作時間內(nèi)全程監(jiān)控,發(fā)現(xiàn)異常情況應(yīng)及時進行處理,確保整個網(wǎng)絡(luò)的正常運行。
2、應(yīng)急處置措施
2.1 機房漏水應(yīng)急預(yù)案
(1)發(fā)生機房漏水時,第一目擊者應(yīng)立即通知運維服務(wù)小組,并及時報告監(jiān)控系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。
(2)若空調(diào)系統(tǒng)出現(xiàn)滲漏水,運維服務(wù)小組負(fù)責(zé)人應(yīng)立即安排停用故障空調(diào),清除機房積水,并及時聯(lián)系設(shè)備供應(yīng)方處理,同時啟動備用空調(diào),必要情況下可臨時用備用空調(diào)對服務(wù)器進行降溫。
(3)若為墻體或機房門滲漏水,運維服務(wù)小組負(fù)責(zé)人應(yīng)立即采取有效措施確保機房安全,及時清除積水,維修墻體或門窗,消除滲漏水隱患。2.2 設(shè)備發(fā)生被盜或人為損害事件應(yīng)急預(yù)案
(1)發(fā)生設(shè)備被盜或人為損害設(shè)備情況時,使用者或管理者應(yīng)立即報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,同時保護好現(xiàn)場。
(2)系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組接報后,通知用戶保衛(wèi)部門、相關(guān)領(lǐng)導(dǎo),一同核實審定現(xiàn)場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。
(3)事發(fā)單位和當(dāng)事人應(yīng)當(dāng)積極配合公安部門進行調(diào)查,并將有關(guān)情況向系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組匯報。
(4)系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組安排運維服務(wù)小組、事發(fā)單位及時恢復(fù)系統(tǒng)正常運行,并對事件進行調(diào)查。運維服務(wù)小組和事發(fā)單位應(yīng)在調(diào)查結(jié)束后一日內(nèi)書面報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。事態(tài)或后果嚴(yán)重的,應(yīng)向相關(guān)領(lǐng)導(dǎo)匯報。2.3 機房長時間停電應(yīng)急預(yù)案
(1)定期檢查機房供電設(shè)備的運行狀況和電路線纜器材情況,當(dāng)發(fā)生下列突發(fā)事件時,按照以下方案進行處置:
(2)當(dāng)機房發(fā)生市電供電突然停電或是電源異常時。首先應(yīng)和后勤部門聯(lián)系確認(rèn)正常停電以及預(yù)計停電時間。檢查不間斷電源的電池可供電時間,確保設(shè)備正常運行,如遇到突然斷電,應(yīng)及時將空調(diào)等不在UPS電源供電范圍內(nèi)的設(shè)備及時斷電,預(yù)防突然來電時瞬間電流過大導(dǎo)致設(shè)備損壞等現(xiàn)象。
(3)當(dāng)確定停電時間超出機房UPS承載范圍后,首先確定停電的范圍以及受影響的設(shè)備范圍。并及時通知各部門做好停電應(yīng)急準(zhǔn)備。然后通知機房電源維護人和設(shè)備的負(fù)責(zé)人到達(dá)現(xiàn)場,做好各設(shè)備的電源停電準(zhǔn)備。在UPS供電電量僅剩10%之后,嚴(yán)格按操作手冊停掉各服務(wù)器的電源,最后停核心交換機和路由器,等待電力恢復(fù)。
(4)當(dāng)確定停電原因是在本身供電系統(tǒng)范圍內(nèi),立即匯報給負(fù)責(zé)領(lǐng)導(dǎo),并及時聯(lián)系相關(guān)維護人員達(dá)到現(xiàn)場檢修。對于恢復(fù)時間無法預(yù)計的,要通知后勤部門做好柴油機發(fā)電及移動電源車供電準(zhǔn)備
(5)恢復(fù)供電后,嚴(yán)格按照操作程序逐步恢復(fù)機房設(shè)備和UPS的供電,以防瞬間電流過大造成設(shè)備損壞。
2.4 通信網(wǎng)絡(luò)故障應(yīng)急預(yù)案
(1)發(fā)生通信線路中斷、路由故障、流量異常、域名系統(tǒng)故障后,操作員應(yīng)及時通知本單位信息系統(tǒng)管理員,經(jīng)初步判斷后及時上報運維服務(wù)小組和系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。
(2)運維服務(wù)小組接報告后,應(yīng)及時查清通信網(wǎng)絡(luò)故障位置,隔離故障區(qū)
域,并將事態(tài)及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,通知相關(guān)通信網(wǎng)絡(luò)運營商查清原因;同時及時組織相關(guān)技術(shù)人員檢測故障區(qū)域,逐步恢復(fù)故障區(qū)與服務(wù)器的網(wǎng)絡(luò)聯(lián)接,恢復(fù)通信網(wǎng)絡(luò),保證正常運轉(zhuǎn)。
(3)事態(tài)或后果嚴(yán)重的,應(yīng)向應(yīng)急指揮辦公室和相關(guān)領(lǐng)導(dǎo)匯報。(4)應(yīng)急處置結(jié)束后,運維服務(wù)小組應(yīng)將故障分析報告,在調(diào)查結(jié)束后一日內(nèi)書面報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。2.5網(wǎng)絡(luò)病毒事件應(yīng)急預(yù)案
(1)發(fā)現(xiàn)不良信息或網(wǎng)絡(luò)病毒時,信息系統(tǒng)管理員應(yīng)立即斷開網(wǎng)線,終止不良信息或網(wǎng)絡(luò)病毒傳播,并報告指揮調(diào)度中心運維服務(wù)小組和系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。
(2)運維服務(wù)小組應(yīng)根據(jù)系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組指令,采取隔離網(wǎng)絡(luò)等措施,及時殺毒或清除不良信息,并追查不良信息來源。
(3)事態(tài)或后果嚴(yán)重的,應(yīng)向監(jiān)控中心辦公室和相關(guān)領(lǐng)導(dǎo)匯報。(4)處置結(jié)束后 ,運維服務(wù)小組應(yīng)將事發(fā)經(jīng)過、造成影響、處置結(jié)果在調(diào)查工作結(jié)束后一日內(nèi)書面報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。2.6 服務(wù)器軟件系統(tǒng)故障應(yīng)急預(yù)案
(1)發(fā)生服務(wù)器軟件系統(tǒng)故障后,運維服務(wù)小組負(fù)責(zé)人應(yīng)立即組織啟動備份服務(wù)器系統(tǒng),由備份服務(wù)器接管業(yè)務(wù)應(yīng)用,并及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組;同時安排相關(guān)責(zé)任人將故障服務(wù)器脫離網(wǎng)絡(luò),保存系統(tǒng)狀態(tài)不變,取出系統(tǒng)鏡像備份磁盤,保持原始數(shù)據(jù)。
(2)運維服務(wù)小組應(yīng)根據(jù)系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組的指令,在確認(rèn)安全的情況下,重新啟動故障服務(wù)器系統(tǒng);重啟系統(tǒng)成功,則檢查數(shù)據(jù)丟失情況,利用備份數(shù)據(jù)恢復(fù);若重啟失敗,立即聯(lián)系相關(guān)廠商和上級單位,請求技術(shù)支援,作好技術(shù)處理。
(3)事態(tài)或后果嚴(yán)重的,應(yīng)向監(jiān)控中心應(yīng)急指揮辦公室和相關(guān)領(lǐng)導(dǎo)匯報。(4)處置結(jié)束后,運維服務(wù)小組應(yīng)將事發(fā)經(jīng)過、處置結(jié)果等在調(diào)查工作結(jié)束后一日內(nèi)報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。
2.7 黑客攻擊事件應(yīng)急預(yù)案
(1)當(dāng)發(fā)現(xiàn)網(wǎng)絡(luò)被非法入侵、網(wǎng)頁內(nèi)容被篡改,應(yīng)用服務(wù)器上的數(shù)據(jù)被非法拷貝、修改、刪除,或通過入侵檢測系統(tǒng)發(fā)現(xiàn)有黑客正在進行攻擊時,使用者或管理者應(yīng)斷開網(wǎng)絡(luò),并立即報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。
(2)接報告后,系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組應(yīng)立即指令運維服務(wù)小組核實情況,關(guān)閉服務(wù)器或系統(tǒng),修改防火墻和路由器的過濾規(guī)則,封鎖或刪除被攻破的登陸帳號,阻斷可疑用戶進入網(wǎng)絡(luò)的通道。
(3)運維服務(wù)小組應(yīng)及時清理系統(tǒng),恢復(fù)數(shù)據(jù)、程序,恢復(fù)系統(tǒng)和網(wǎng)絡(luò)正常;情況嚴(yán)重的,應(yīng)向監(jiān)控中心應(yīng)急指揮辦公室和相關(guān)領(lǐng)導(dǎo)匯報,并請求支援。
(4)處置結(jié)束后 ,運維服務(wù)小組應(yīng)將事發(fā)經(jīng)過、處置結(jié)果等在調(diào)查工作結(jié)束后一日內(nèi)報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。2.8 核心設(shè)備硬件故障應(yīng)急預(yù)案
(1)發(fā)生核心設(shè)備硬件故障后,運維服務(wù)小組應(yīng)及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,并組織查找、確定故障設(shè)備及故障原因,進行先期處置。
(2)若故障設(shè)備在短時間內(nèi)無法修復(fù)運維服務(wù)小組應(yīng)啟動備份設(shè)備,保持系統(tǒng)正常運行;將故障設(shè)備脫離網(wǎng)絡(luò),進行故障排除工作。
(3)運維服務(wù)小組故障排除后,在網(wǎng)絡(luò)空閑時期,替換備用設(shè)備;若故障仍然存在,立即聯(lián)系相關(guān)廠商,認(rèn)真填寫設(shè)備故障報告單備查。
(4)事態(tài)或后果嚴(yán)重的,應(yīng)向監(jiān)控中心應(yīng)急指揮辦公室和相關(guān)領(lǐng)導(dǎo)匯報。2.9 業(yè)務(wù)數(shù)據(jù)損壞應(yīng)急預(yù)案
(1)發(fā)生業(yè)務(wù)數(shù)據(jù)損壞 時,運維服務(wù)小組應(yīng)及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,檢查、備份業(yè)務(wù)系統(tǒng)當(dāng)前數(shù)據(jù)。
(2)運維服務(wù)小組負(fù)責(zé)調(diào)用備份服務(wù)器備份數(shù)據(jù),若備份數(shù)據(jù)損壞,則調(diào)用磁帶機中歷史備份數(shù)據(jù),若磁帶機數(shù)據(jù)仍不可用,則調(diào)用異地備份數(shù)據(jù)。
(3)業(yè)務(wù)數(shù)據(jù)損壞事件超過 2小時后,運維服務(wù)小組應(yīng)及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,及時通知業(yè)務(wù)部門以手工方式開展業(yè)務(wù)。
(4)運維服務(wù)小組應(yīng)待業(yè)務(wù)數(shù)據(jù)系統(tǒng)恢復(fù)后,檢查歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的差別,由相關(guān)系統(tǒng)業(yè)務(wù)員補錄數(shù)據(jù);重新備份數(shù)據(jù),并在工作結(jié)束后一日內(nèi)報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。2.10 雷擊事故應(yīng)急預(yù)案
(1)遇雷暴天氣或接上級部門雷暴氣象預(yù)警,運維服務(wù)小組應(yīng)及時報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組,經(jīng)請示同意后關(guān)閉部分服務(wù)器,切斷電源,暫停內(nèi)部計算機部分網(wǎng)絡(luò)工作。
(2)雷暴天氣結(jié)束后,運維服務(wù)小組報經(jīng)系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組同意,及時開通服務(wù)器,恢復(fù)內(nèi)部計算機網(wǎng)絡(luò)工作,對設(shè)備和數(shù)據(jù)進行檢查。
(3)因雷擊造成損失的,運維服務(wù)小組應(yīng)會同相關(guān)部門進行核實、報損,并在調(diào)查工作結(jié)束后一日內(nèi)書面報告系統(tǒng)突發(fā)故障應(yīng)急領(lǐng)導(dǎo)小組。必要時,應(yīng)向監(jiān)控中心應(yīng)急指揮辦公室和相關(guān)領(lǐng)導(dǎo)匯報。2.11 空調(diào)設(shè)備故障應(yīng)急預(yù)案
若機房專用空調(diào)損壞,應(yīng)第一時間啟用機房備用空調(diào),并通知廠家上門進行維修,并及時報告相關(guān)領(lǐng)導(dǎo)請示,獲得授權(quán)后按機房設(shè)備關(guān)閉順序關(guān)閉各類設(shè)備。2.12 火災(zāi)事故應(yīng)急預(yù)案
(1)一旦機房發(fā)生火災(zāi),應(yīng)遵照下列原則:首先確保人員安全;其次保護關(guān)鍵設(shè)備、數(shù)據(jù)安全;三是保護一般設(shè)備安全;
(2)人員疏散的程序是:機房工作人員立即按響火警警報,并通過119電話向公安消防請求支援,所有人員戴上防毒面具,所有不參與滅火的人員按照預(yù)先確定的線路,迅速從機房中撤出;
(3)人員滅火的程序是:首先切斷所有電源,啟動自動噴淋系統(tǒng)或使用滅火器,滅火值班人員戴好防毒面具,從指定位置取出泡沫滅火器進行滅火。2.13 電源設(shè)備故障應(yīng)急預(yù)案
機房目前使用UPS系統(tǒng),在緊急情況發(fā)生時,應(yīng)按如下步驟進行關(guān)機:(1)確認(rèn)所有負(fù)載均已安全關(guān)機。
(2)關(guān)閉UPS負(fù)載電源。
(3)將UPS的系統(tǒng)啟用開關(guān)切換到off 的狀態(tài)。(4)將電池連接斷路器切換到off的位置。
第二篇:IDC機房應(yīng)急預(yù)案手冊
機房應(yīng)急預(yù)案手冊
一、機房事故處理通則
凡系統(tǒng)發(fā)生故障時,網(wǎng)管運行監(jiān)控負(fù)責(zé)人必須立即組織搶修,不得拖延。
運行監(jiān)控人員均應(yīng)熟悉故障緊急處理流程,熟練掌握操作步驟和方法。
運行監(jiān)控管理人員應(yīng)如實上報故障情況,故障報告應(yīng)當(dāng)做到時間清、原因清、結(jié)果清。
重大故障和嚴(yán)重故障要報上級業(yè)務(wù)主管領(lǐng)導(dǎo)。對已處理的重大故障和嚴(yán)重故障,事后必須做故障分析,查清故障原因,確定故障性質(zhì)和責(zé)任,采取防范措施,避免同類故障再次發(fā)生。
故障處理基本原則:先重點后一般;先調(diào)通后維修。
1、故障等級
網(wǎng)管系統(tǒng)的故障等級共分三類:
1.1 重大故障
在系統(tǒng)運行期間,關(guān)鍵設(shè)備(包括傳輸或其它專業(yè)所屬設(shè)備)、軟件故障造成所有網(wǎng)管業(yè)務(wù)中斷超過24小時。
1.2 嚴(yán)重故障
在系統(tǒng)運行期間,關(guān)鍵設(shè)備(包括傳輸或其它專業(yè)所屬設(shè)備)、軟件故障造成下列情況之一的系統(tǒng)故障:
(1)所有網(wǎng)管業(yè)務(wù)中斷超過12小時但不超過24小時;
(2)網(wǎng)管個別業(yè)務(wù)中斷超過24小時;
1.3 一般故障
除重大故障和嚴(yán)重故障外的其他故障。
2、故障通報與通報制度
網(wǎng)管中心應(yīng)建立相關(guān)設(shè)備故障處理聯(lián)系制度,并將聯(lián)系人和聯(lián)系方法張貼在醒目位置。
網(wǎng)管中心應(yīng)建立設(shè)備操作手冊和故障處理流程,并存放在固定地點。
網(wǎng)管中心應(yīng)建立設(shè)備運行情況統(tǒng)計和登記表,并存放在固定地點。
2.1 故障處理:
2.11、在系統(tǒng)發(fā)生故障時,值班人員應(yīng)對照運行維護手冊進行簡單的故障處理和準(zhǔn)確定位,對無法處理的故障應(yīng)立即通知系統(tǒng)維護主管工程師,并逐級上報。系統(tǒng)維護主管工程師組織相關(guān)人員現(xiàn)場處理,故障處理完畢后,馬上通知故障發(fā)起點,并進行詳細(xì)記錄。當(dāng)系統(tǒng)發(fā)生故障時,網(wǎng)管中心運行維護負(fù)責(zé)人必須立即組織搶修,不得拖延。
2.12、在處理故障時,應(yīng)嚴(yán)格按照故障處理流程進行,整個流程強調(diào)閉環(huán)管理,按先重點后一般;先調(diào)通后維修的原則進行。
2.13、在系統(tǒng)和設(shè)備故障處理的過程中,若出現(xiàn)較為嚴(yán)重或一時無法解決的問題,及時通知故障發(fā)起點,并立即向主管領(lǐng)導(dǎo)匯報,同時與廠家聯(lián)系,及時爭取技術(shù)支持,填寫故障報告。
2.14、在系統(tǒng)設(shè)備故障處理過程中,若使用了備件單元或備用電路板,應(yīng)按規(guī)定分別詳細(xì)登記故障發(fā)生的工作單元、故障現(xiàn)象或故障代碼、換用備件名稱、編號,有條件時應(yīng)附上當(dāng)時的打印記錄,向主管報告,并及時與備件管理人員取得聯(lián)系,按正確的手續(xù)發(fā)送返修。
2.15、在相關(guān)專業(yè)部門或設(shè)備供應(yīng)商進行搶修的過程中,網(wǎng)管中心應(yīng)負(fù)責(zé)協(xié)調(diào)相關(guān)專業(yè)部門,采取其它措施對網(wǎng)絡(luò)進行監(jiān)控。
2.16、在相關(guān)專業(yè)部門或設(shè)備供應(yīng)商進行搶修的過程中,網(wǎng)管中心應(yīng)負(fù)責(zé)協(xié)調(diào)相關(guān)專業(yè)部門,采取其它措施對網(wǎng)絡(luò)相關(guān)數(shù)據(jù)進行保存和統(tǒng)計。
2.17、網(wǎng)管中心在相關(guān)故障排除后48小時內(nèi)提交故障分析報告。報告將視故障級別上報所在公司運行維護部和上級網(wǎng)管中心。
運行維護人員均應(yīng)熟悉故障緊急處理流程,熟練掌握操作步驟和方法。2.2 故障通報:
當(dāng)出現(xiàn)值班人員不能解決的故障時,值班人員應(yīng)立即上報系統(tǒng)維護主管工程師和部門主管。
故障處理完畢一天內(nèi),系統(tǒng)主管工程師寫出故障報告,上報部門主管,重大故障和嚴(yán)重故障要報上級業(yè)務(wù)主管部門。
當(dāng)發(fā)生故障時,機房當(dāng)班人員應(yīng)將故障發(fā)生經(jīng)過詳細(xì)填寫進《值班日志》。
如果網(wǎng)管系統(tǒng)出現(xiàn)嚴(yán)重故障,在故障發(fā)生后應(yīng)在第一時間向上一級網(wǎng)管中心通報相關(guān)情況。
出現(xiàn)故障后,由網(wǎng)管中心指定專人向相關(guān)部門通報故障影響范圍和處理情況等。
運行維護負(fù)責(zé)人應(yīng)如實上報故障情況,故障報告應(yīng)當(dāng)做到時間清、原因清、結(jié)果清。
二、機房應(yīng)急動力預(yù)案
1、機房停電故障 1.1 準(zhǔn)備工作
1.11停電后第一時間電話咨詢供電公司(電話號碼)詢問停電原因及停電時長。
1.12電話通知相關(guān)領(lǐng)導(dǎo)停電狀況,如果在值班過程中停電需同事共同處理的也及時通知,在停電期間要保持通信暢通有問題及時聯(lián)系。(領(lǐng)導(dǎo)電話)
1.13準(zhǔn)備扳手、六棱起、數(shù)字萬用表、“+”字“—”字螺絲刀各兩把(大、小)等常用電工工具,準(zhǔn)備好高壓絕緣手套、絕緣鞋、專用扳手。
1.14以上3點工作盡量在最短時間內(nèi)結(jié)束,然后針對故障原因作出相應(yīng)處理。
1.2停電情況下處理方式
從供電公司確定完停電原因及停電時長后,確定停電時長是否在UPS負(fù)荷工作時間范圍內(nèi):如果在UPS負(fù)荷工作范圍內(nèi),密切觀察UPS工作狀態(tài),所有設(shè)備正常工作;如果超出UPS工作范圍內(nèi),向領(lǐng)導(dǎo)申請,存儲信息,關(guān)閉機房設(shè)備,防止機房斷電丟失數(shù)據(jù)。
1.3 市電恢復(fù)后的操作
1.所有設(shè)備恢復(fù)市電供電,檢查設(shè)備的供電運行情況。
2、UPS故障處理
通州工商局機房UPS系統(tǒng)為2臺OVERTOP RT30KH UPS 的并機系統(tǒng).如30KVA UPS系統(tǒng)中一臺UPS故障,系統(tǒng)自動將負(fù)載倒到另一臺UPS上,如何關(guān)閉故障的UPS,如何再次開啟UPS,如下:
關(guān)機
1、先將旁路轉(zhuǎn)換開關(guān)打到“ON”的位置:
2、將UPS輸出開關(guān)打到“OFF”位置
3、關(guān)掉UPS的開關(guān),這時UPS停止運行;
4、關(guān)掉UPS輸入開關(guān),系統(tǒng)關(guān)機完畢。
開機
1、首先確認(rèn)UPS的開關(guān)都打到“OFF”位置,配電柜的UPS輸出開關(guān)也在“OFF”位置。
2、先把旁路轉(zhuǎn)換開關(guān)打到“ON”的位置
3、分別將UPS的開關(guān)合閘;
4、當(dāng)UPS面板指示為旁路供電狀態(tài)時,再把旁路轉(zhuǎn)換開關(guān)打到“OFF”位置這時,UPS轉(zhuǎn)到正常工作模式,啟動完成。
5、最后合上UPS輸出開關(guān),系統(tǒng)供電正常。
當(dāng)關(guān)掉其中一臺UPS在啟動辦法
1、先把旁路轉(zhuǎn)換開關(guān)打到“ON”的位置
2、再把已關(guān)掉的UPS的開關(guān)分別打到“ON”的位置;
3、當(dāng)兩臺UPS面板指示為旁路供電狀態(tài)時,再把旁路轉(zhuǎn)換開關(guān)打到“OFF”位置這時,兩臺UPS轉(zhuǎn)到正常工作模式,啟動完成
3、機房空調(diào)及局部過熱故障的緊急處理方案
發(fā)生機房空調(diào)故障,會使機房的溫度升高,危害設(shè)備正常運行。所以發(fā)生此類故障后,要積極維修,如果一時無法修復(fù),必須采取應(yīng)急措施,保障機房環(huán)境符合要求。
現(xiàn)在的機房空調(diào)一臺艾賽爾精密空調(diào),一臺大金空調(diào)。
1、首先判斷機房空調(diào)什么故障,如果壓縮機故障,送風(fēng)機工作正常,此時盡量將機房防靜電地板掀開.增將出風(fēng)口.如果是空調(diào)的送風(fēng)機故障,不能正常送風(fēng),把鄰近空調(diào)的送風(fēng)口的格柵盡量調(diào)整,到故障空調(diào)前面的區(qū)域,這樣才能的保障機房溫度不至于上升。或者盡量將機房防靜電地板掀開,增將出風(fēng)口,或者拿普通的電風(fēng)扇在故障空調(diào)的影響區(qū)域吹風(fēng),打開機柜門,冰塊局部降溫等措施防止局部升溫過快。
2、機房局部設(shè)備溫度上升過快或過熱的處理步驟 首先將此設(shè)備的機柜門打開,讓熱空氣充分散出,也可以用電風(fēng)扇對此設(shè)備吹風(fēng),加快散熱速度,購買冰塊,放在大盆里,置于局部過熱部位,利用冰塊融化吸收熱量,或者同時放置冰塊并用電風(fēng)扇吹。
三、機房防火預(yù)案
一、當(dāng)發(fā)生火災(zāi)事故時,搶險工作應(yīng)遵循如下原則:
1堅持“統(tǒng)一領(lǐng)導(dǎo)、分級負(fù)責(zé)、嚴(yán)密組織、密切配合、快速反應(yīng)、保障有力”的原則。
2堅持快速恢復(fù)生產(chǎn)、減少經(jīng)濟損失的原則。
3堅持原則性與靈活性相結(jié)合的原則,注意講究策略和方法。
二、消防安全管理基本原則:
1堅持“預(yù)防為主,防消結(jié)合”的原則。2堅持“誰主管、誰負(fù)責(zé)”的“兩誰”原則。
第三篇:中心機房應(yīng)急預(yù)案
中心機房應(yīng)急預(yù)案
一、系統(tǒng)故障應(yīng)急流程
1.1 系統(tǒng)故障應(yīng)急流程說明
一、故障發(fā)生
值班人員可從以下途徑得知故障的發(fā)生: 1)值班人員通過報警系統(tǒng)告警發(fā)現(xiàn)故障 2)值班人員通過遠(yuǎn)程數(shù)據(jù)監(jiān)測發(fā)現(xiàn)故障 3)值班人員通過維護巡檢發(fā)現(xiàn)故障 4)系統(tǒng)用戶發(fā)現(xiàn)故障,報給呼叫值班人員
二、報障受理
值班人員發(fā)現(xiàn)系統(tǒng)故障發(fā)生后,立即響應(yīng),根據(jù)級別進行應(yīng)急處理,并向相關(guān)領(lǐng)導(dǎo)報告系統(tǒng)故障情況。
三、信息研判
值班人員根據(jù)了解到的系統(tǒng)故障情況進行分析判斷,以確定采用一般故障處理流程還是立即啟動系統(tǒng)突發(fā)故障應(yīng)急處理預(yù)案。
四、預(yù)案啟動
如需啟動應(yīng)急預(yù)案,則立刻通知相關(guān)領(lǐng)導(dǎo)小組,由相關(guān)領(lǐng)導(dǎo)小組啟動應(yīng)急預(yù)案,對系統(tǒng)突發(fā)故障應(yīng)急事件進行全面管控處理。
五、資源確認(rèn)
系統(tǒng)突發(fā)故障應(yīng)急預(yù)案啟動后,首先是根據(jù)現(xiàn)場突發(fā)故障實際狀況、緊急程度、技術(shù)難度、備品備件等情況對相關(guān)資源(主要是參與人員)依據(jù)經(jīng)驗進行調(diào)度和確認(rèn),主要有以下資源:
本單位相關(guān)技術(shù)支持人員 授權(quán)第三方公司技術(shù)支持人員; 故障設(shè)備相關(guān)廠家技術(shù)支持人員; 聘請的技術(shù)專家
六、預(yù)案執(zhí)行
按照既定的預(yù)案進行突發(fā)事件處理和故障搶修,如遇到問題及時向相關(guān)領(lǐng)導(dǎo)小組匯報。
七、預(yù)案終止
預(yù)案的終止時間由故障現(xiàn)場技術(shù)人員根據(jù)現(xiàn)場的實際進展情況,在與用戶單位有關(guān)部門協(xié)調(diào)后相關(guān)領(lǐng)導(dǎo)小組決定。
八、結(jié)果上報
預(yù)案中止后,相關(guān)預(yù)案參與人員將整個事件過程中所有收發(fā)信息、領(lǐng)導(dǎo)批示、事故調(diào)查報告、現(xiàn)場錄像、圖片等材料及時整理歸檔,并總結(jié)事件處理過程中的經(jīng)驗和教訓(xùn),修改、完善事件應(yīng)急預(yù)案。然后集中上報至相關(guān)領(lǐng)導(dǎo)小組。
1.2 系統(tǒng)故障應(yīng)急處理流程圖
機房應(yīng)急預(yù)案
3.1 機房漏水應(yīng)急預(yù)案
(1)發(fā)生機房漏水時,第一目擊者應(yīng)立即檢測漏水影響范圍,并及時報告相關(guān)領(lǐng)導(dǎo)小組。
(2)若空調(diào)系統(tǒng)出現(xiàn)滲漏水,值班人員應(yīng)立即安排停用故障空調(diào),清除機房積水,并及時聯(lián)系設(shè)備供應(yīng)方處理,同時啟動備用空調(diào),必要情況下可其它方式(通風(fēng)、冰塊降溫等)對服務(wù)器進行降溫。
(3)若為墻體或窗戶滲漏水,值班人員應(yīng)立即采取有效措施確保機房安全,同時安排通知房屋產(chǎn)權(quán)方,及時清除積水,維修墻體或窗戶,消除 滲漏水隱患。
3.2 設(shè)備發(fā)生被盜或人為損害事件應(yīng)急預(yù)案
(1)發(fā)生設(shè)備被盜或人為損害設(shè)備情況時,使用者或管理者應(yīng)立即報告相關(guān)領(lǐng)導(dǎo)小組,同時保護好現(xiàn)場。
(2)相關(guān)領(lǐng)導(dǎo)小組接報后,通知用戶保衛(wèi)部門、相關(guān)領(lǐng)導(dǎo),一同核實審定現(xiàn)場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。
(3)值班人員應(yīng)當(dāng)積極配合公安部門進行調(diào)查,并將有關(guān)情況向相關(guān)領(lǐng)導(dǎo)小組匯報。(4)相關(guān)領(lǐng)導(dǎo)小組安排相關(guān)技術(shù)人員及時恢復(fù)系統(tǒng)正常運行,并對事件進行調(diào)查。值班人員應(yīng)在調(diào)查結(jié)束后三日內(nèi)書面報告相關(guān)領(lǐng)導(dǎo)小組。
3.3 機房長時間停電應(yīng)急預(yù)案
(1)接到長時間停電通知后,值班人員應(yīng)及時通過辦公系統(tǒng)、電話等發(fā)布相關(guān)信息,部署應(yīng)對具體措施,要求相關(guān)保障人員在停電前及時就位,檢查業(yè)務(wù)系統(tǒng)、保存數(shù)據(jù)。
(2)停電時間過長的,應(yīng)準(zhǔn)備充足燃油,并準(zhǔn)備租用電力公司發(fā)電車協(xié)助,保證系統(tǒng)正常運轉(zhuǎn)。3.4 通信網(wǎng)絡(luò)故障應(yīng)急預(yù)案
(1)發(fā)生通信線路中斷、路由故障、流量異常、業(yè)務(wù)系統(tǒng)故障后,操作員應(yīng)及時通知本單位相關(guān)系統(tǒng)管理員,經(jīng)初步判斷后及時上報值班人員和相關(guān)領(lǐng)導(dǎo)小組。
(2)值班人員接報告后,應(yīng)及時查清通信網(wǎng)絡(luò)故障位置,隔離故障區(qū)域,并將事態(tài)及時報告相關(guān)領(lǐng)導(dǎo)小組,通知相關(guān)通信網(wǎng)絡(luò)運營商查清原因;同時及時組織相關(guān)技術(shù)人員檢測故障區(qū)域,逐步恢復(fù)故障區(qū)與服務(wù)器的網(wǎng)絡(luò)聯(lián)接,恢復(fù)通信網(wǎng)絡(luò),保證正常運轉(zhuǎn)。
(3)事態(tài)或后果嚴(yán)重的,應(yīng)及時向相關(guān)領(lǐng)導(dǎo)匯報。
(4)應(yīng)急處置結(jié)束后,值班人員應(yīng)將故障分析報告,在調(diào)查結(jié)束后三日內(nèi)書面報告相關(guān)領(lǐng)導(dǎo)小組。
3.5 不良信息和網(wǎng)絡(luò)病毒事件應(yīng)急預(yù)案
(1)發(fā)現(xiàn)不良信息或網(wǎng)絡(luò)病毒時,信息系統(tǒng)管理員應(yīng)立即斷開網(wǎng)線,終止不良信息或網(wǎng)絡(luò)病毒傳播,并報告相關(guān)系統(tǒng)維護人員和相關(guān)領(lǐng)導(dǎo)小組。
(2)值班人員應(yīng)根據(jù)相關(guān)領(lǐng)導(dǎo)小組指令,采取隔離網(wǎng)絡(luò)等措施,及時殺毒或清除不良信息,并追查不良信息來源。
(3)事態(tài)或后果嚴(yán)重的,應(yīng)向總公司相關(guān)領(lǐng)導(dǎo)匯報。
(4)處置結(jié)束后 ,值班人員應(yīng)將事發(fā)經(jīng)過、造成影響、處置結(jié)果在調(diào)查工作結(jié)束后三日內(nèi)書面報告相關(guān)領(lǐng)導(dǎo)小組。
3.6 服務(wù)器軟件系統(tǒng)故障應(yīng)急預(yù)案
(1)發(fā)生服務(wù)器軟件系統(tǒng)故障后,值班人員應(yīng)立即組織啟動備份服務(wù)器系統(tǒng),由備份服務(wù)器接管業(yè)務(wù)應(yīng)用,并及時報告相關(guān)領(lǐng)導(dǎo)小組;同時安排相關(guān)責(zé)任人將故障服務(wù)器脫離網(wǎng)絡(luò),保存系統(tǒng)狀態(tài)不變,取出系統(tǒng)鏡像備份磁盤,保持原始數(shù)據(jù)。
(2)值班人員應(yīng)根據(jù)相關(guān)領(lǐng)導(dǎo)小組的指令,在確認(rèn)安全的情況下,重新啟動故障服務(wù)器系統(tǒng);重啟系統(tǒng)成功,則檢查數(shù)據(jù)丟失情況,利用備份數(shù)據(jù)恢復(fù);若重啟失敗,立即聯(lián)系相關(guān)廠商和上級單位,請求技術(shù)支援,作好技術(shù)處理。(3)事態(tài)或后果嚴(yán)重的,總公司相關(guān)領(lǐng)導(dǎo)匯報。
(4)處置結(jié)束后,值班人員應(yīng)將事發(fā)經(jīng)過、處置結(jié)果等在調(diào)查工作結(jié)束后三日內(nèi)報告相關(guān)領(lǐng)導(dǎo)小組。
3.7 黑客攻擊事件應(yīng)急預(yù)案
(1)當(dāng)發(fā)現(xiàn)網(wǎng)絡(luò)被非法入侵、業(yè)務(wù)內(nèi)容被篡改,應(yīng)用服務(wù)器上的數(shù)據(jù)被非法拷貝、修改、刪除,或通過入侵檢測系統(tǒng)發(fā)現(xiàn)有黑客正在進行攻擊時,使用者或管理者應(yīng)斷開網(wǎng)絡(luò),并立即報告相關(guān)領(lǐng)導(dǎo)小組。
(2)接報告后,相關(guān)領(lǐng)導(dǎo)小組應(yīng)立即指令相關(guān)技術(shù)人員核實情況,關(guān)閉服務(wù)器或系統(tǒng),修改防火墻和路由器的過濾規(guī)則,封鎖或刪除被攻破的登陸帳號,阻斷可疑用戶進入網(wǎng)絡(luò)的通道。
(3)值班人員應(yīng)及時清理系統(tǒng),恢復(fù)數(shù)據(jù)、程序,恢復(fù)系統(tǒng)和網(wǎng)絡(luò)正常;情況嚴(yán)重的,應(yīng)向總公司相關(guān)領(lǐng)導(dǎo)匯報,并請求支援。
(4)處置結(jié)束后 ,值班人員應(yīng)將事發(fā)經(jīng)過、處置結(jié)果等在調(diào)查工作結(jié)束后三日內(nèi)報告相關(guān)領(lǐng)導(dǎo)小組。
3.8 核心設(shè)備硬件故障應(yīng)急預(yù)案
(1)發(fā)生核心設(shè)備硬件故障后,值班人員應(yīng)及時報告相關(guān)領(lǐng)導(dǎo)小組,并組織查找、確定故障設(shè)備及故障原因,進行先期處置。
(2)若故障設(shè)備在短時間內(nèi)無法修復(fù)值班人員應(yīng)啟動備份設(shè)備,保持系統(tǒng)正常運行;將故障設(shè)備脫離網(wǎng)絡(luò),進行故障排除工作。
(3)值班人員故障排除后,在網(wǎng)絡(luò)空閑時期,替換備用設(shè)備;若故障仍然存在,立即聯(lián)系相關(guān)廠商,認(rèn)真填寫設(shè)備故障報告單備查。
(4)事態(tài)或后果嚴(yán)重的,應(yīng)向總公司相關(guān)領(lǐng)導(dǎo)匯報。
3.9 業(yè)務(wù)數(shù)據(jù)損壞應(yīng)急預(yù)案
(1)發(fā)生業(yè)務(wù)數(shù)據(jù)損壞時,值班人員應(yīng)及時報告相關(guān)領(lǐng)導(dǎo)小組,檢查、備份業(yè)務(wù)系統(tǒng)當(dāng)前數(shù)據(jù)。(2)值班人員負(fù)責(zé)調(diào)用備份服務(wù)器備份數(shù)據(jù),若備份數(shù)據(jù)損壞,則調(diào)用磁帶機中歷史備份數(shù)據(jù),若磁帶機數(shù)據(jù)仍不可用,則調(diào)用異地備份數(shù)據(jù)。
(3)業(yè)務(wù)數(shù)據(jù)損壞事件超過 X小時后,維護小組應(yīng)及時報告相關(guān)領(lǐng)導(dǎo),及時通知業(yè)務(wù)部門以其它方式開展業(yè)務(wù)。
(4)值班人員應(yīng)待業(yè)務(wù)數(shù)據(jù)系統(tǒng)恢復(fù)后,檢查歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的差別,由相關(guān)系統(tǒng)業(yè)務(wù)員補錄數(shù)據(jù);重新備份數(shù)據(jù),并寫出故障分析報告,在調(diào)查工作結(jié)束后三日內(nèi)報告相關(guān)領(lǐng)導(dǎo)。
3.10 雷擊事故應(yīng)急預(yù)案
(1)遇雷暴天氣或接上級部門雷暴氣象預(yù)警,值班人員應(yīng)及時報告相關(guān)領(lǐng)導(dǎo),經(jīng)請示同意后關(guān)閉部分服務(wù)器,切斷電源,暫停內(nèi)部計算機部分網(wǎng)絡(luò)工作。
(2)雷暴天氣結(jié)束后,值班人員報經(jīng)相關(guān)領(lǐng)導(dǎo)小組同意,及時開通服務(wù)器,恢復(fù)停用的計算機網(wǎng)絡(luò)工作,對設(shè)備和數(shù)據(jù)進行檢查。
(3)因雷擊造成損失的,值班人員應(yīng)會同相關(guān)部門進行核實、報損,并在調(diào)查工作結(jié)束后三日內(nèi)書面報告相關(guān)領(lǐng)導(dǎo)小組。必要時,應(yīng)向總公司相關(guān)領(lǐng)導(dǎo)匯報。
四、機房動力系統(tǒng)應(yīng)急處理方案
在機房動力發(fā)生異常情況時,動力系統(tǒng)通常可自動切換由備用電池提供機房設(shè)備的動力,在發(fā)生重大事故或自然災(zāi)害而無法短時間內(nèi)正常恢復(fù)機房動力的情況下,啟動機房動力系統(tǒng)應(yīng)急處理流程,采用應(yīng)急油機發(fā)電,確保用戶單位網(wǎng)點通信網(wǎng)絡(luò)能夠安全、高效和可靠地運行。具體流程見下圖: 監(jiān)控到機房動力異常告警 通知維護站赴現(xiàn)場,監(jiān)視動力系統(tǒng)電壓下降情況 停電時間超過備用電池的合適支撐時間? 否 是 通知相關(guān)部門協(xié)助排查動力系統(tǒng)故障 超過蓄電池允許放電電壓,立即啟動油機發(fā)電 動力恢復(fù) 關(guān)閉油機供電開關(guān) 關(guān)閉電源柜油機開關(guān) 關(guān)閉/拆除油機 市電供電/蓄電池充電正常 消障
當(dāng)發(fā)生長時間停電的動力系統(tǒng)故障時,搶修人員在機房現(xiàn)場實時測試記錄備用電池的放電情況,電池放電容量超過40%時,如果動力系統(tǒng)還沒有恢復(fù)正常供電,就用油機發(fā)電為機房提供動力。
動力系統(tǒng)恢復(fù)后立即對電池進行均充。一天內(nèi)發(fā)生多次停電,放電容量在50%以下,均充轉(zhuǎn)浮充后,浮充時間不少于24小時。一次停電放電容量在50%~80%時,均充轉(zhuǎn)浮充后,浮充時間不少于48小時。
第四篇:中心機房火災(zāi)應(yīng)急預(yù)案
為規(guī)范本酒店網(wǎng)絡(luò)中心機房設(shè)備管理,提高處理酒店網(wǎng)絡(luò)突發(fā)事件的能力,形成反應(yīng)迅速的應(yīng)急工作機制,確保重要網(wǎng)絡(luò)設(shè)備和服務(wù)器硬件安全以及運行安全和數(shù)據(jù)安全,最大限度地減少突發(fā)事件造成的危害,特制定《網(wǎng)絡(luò)中心機房應(yīng)急預(yù)案及管理辦法》。
篇一:中心機房管理辦法
第一條 機房內(nèi)禁止明火禁止吸煙,機房內(nèi)的所有設(shè)備需要定期維護并做巡檢記錄、根據(jù)機房實際情況進行清掃工作。
第二條 機房網(wǎng)絡(luò)設(shè)備維護由網(wǎng)絡(luò)管理員進行,如發(fā)現(xiàn)機器故障應(yīng)及時排除故障,在遇到硬件三包范圍內(nèi)的故障時,應(yīng)及時聯(lián)系供應(yīng)公司上門或?qū)C器送供應(yīng)公司維修;
第三條 酒店員工必須嚴(yán)格遵守有關(guān)機房、設(shè)備及系統(tǒng)運行管理規(guī)定,不得在機房內(nèi)從事與系統(tǒng)管理、運行維護、系統(tǒng)安裝和調(diào)試等無關(guān)的工作;
第四條 做好防火、防雨、防濕、防盜工作,注意用電安全;機房內(nèi)的環(huán)境要每周檢查溫度、濕度、電力系統(tǒng)、是否滿足機房相關(guān)的標(biāo)準(zhǔn)要求。
第五條 機房內(nèi)的交換機和服務(wù)器系酒店運營的關(guān)鍵設(shè)備,任何人不得自行配置或更改其系統(tǒng)參數(shù)。
第六條 要做好機房的安全工作,對服務(wù)器的各種帳戶、密碼嚴(yán)格保密。
第七條 應(yīng)及時做好數(shù)據(jù)的備份工作,保證在系統(tǒng)發(fā)生故障時,數(shù)據(jù)能夠快速、安全的恢復(fù)。所有備份數(shù)據(jù)不得更改,并要求做到本地和異地分別備份保存。
第八條 為了確保本酒店網(wǎng)絡(luò)正常運行,每日對機房內(nèi)的設(shè)備進行巡視,主要著重于服務(wù)器及網(wǎng)絡(luò)設(shè)備運行正常與否。
1、對機房里的溫度進行調(diào)節(jié),如室內(nèi)溫度過高,調(diào)節(jié)空調(diào)對機房進行有效的通風(fēng)。
2、查看交換機與防火墻及接入設(shè)備的工作狀態(tài),如發(fā)生異常,對其進行及時有效的維護。
3、監(jiān)測網(wǎng)絡(luò)運行狀況。
第九條 除本酒店網(wǎng)絡(luò)管理員外,公司其他人員因工作需要進入機房的,需網(wǎng)絡(luò)管理員陪同下進入機房。
第十條 嚴(yán)禁帶外單位人員或無關(guān)人員進入機房,確因工作需要,如:系統(tǒng)故障診斷和處理,設(shè)備維修維護、系統(tǒng)或設(shè)備安裝等進入機房,必須由網(wǎng)絡(luò)管理員陪同進入,配合項目的實施。
第十一條 進入機房的設(shè)備應(yīng)在進入機房前拆除外包裝,以保證機房環(huán)境的清潔和安
第十二條 嚴(yán)禁攜帶易燃、易爆、易腐蝕等危險性物品進入機房。
第十三條 機房內(nèi)提供的UPS電源只允許為主機、服務(wù)器、網(wǎng)絡(luò)及存儲等核心設(shè)備供電,嚴(yán)禁安插其他設(shè)備,增加UPS電源供電負(fù)荷。
第十四條 嚴(yán)禁擅自切斷供電系統(tǒng),確因工作需要斷電時,首先應(yīng)做好相應(yīng)準(zhǔn)備工作,經(jīng)部門領(lǐng)導(dǎo)批準(zhǔn),然后給所有部門發(fā)放斷電或斷網(wǎng)通知,最后方可實施。
第十五條 機房內(nèi)安裝用電設(shè)備或有用電需求的項目時,必須經(jīng)過專業(yè)人員或設(shè)備提供商的安裝工程師進行現(xiàn)場勘查,經(jīng)確認(rèn)在滿足或符合要求后工程才能實施。
篇二:中心機房突發(fā)事件應(yīng)急預(yù)案
第一條 機房突發(fā)事件包括網(wǎng)絡(luò)設(shè)備或服務(wù)器故障、自然災(zāi)害(水、火、電等)造成的物理破壞、人為失誤造成的安全事件等等。針對突發(fā)事件的預(yù)防措施如下: 建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防盜、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng);加強防火、防盜意識。
第二條 機房漏水應(yīng)急預(yù)案如下:
1、發(fā)生機房漏水時,第一目擊者應(yīng)立即通知機房管理人員。
2、若空調(diào)系統(tǒng)出現(xiàn)滲漏水,機房管理人員應(yīng)立即安排停用故障空調(diào),清除機房積水,并及時聯(lián)系設(shè)備供應(yīng)方處理,必要情況下可臨時用電扇對服務(wù)器進行降溫。
3、若為墻體或窗戶滲漏水,機房管理人員應(yīng)立即采取有效措施確保機房安全,同時安排通知工程人員及時清除積水,維修墻體或窗戶,消除滲漏水隱患。
第三條 機房火災(zāi)應(yīng)急預(yù)案如下:
1、完善機房環(huán)境,確保機房放置滅火器;禁止攜帶易燃易爆物品進入機房。
2、機房管理人員應(yīng)熟悉機房內(nèi)部消防安全操作和規(guī)則,了解消防設(shè)備操作原理,掌握消防應(yīng)急處理步驟、措施和要領(lǐng),懂得滅火的方法,會撲救初起火源。
3、一旦發(fā)生火災(zāi),迅速切斷機房電源,避免災(zāi)情的擴散,并迅速和保安部聯(lián)系必要時立即報火警。
第四條 機房停電應(yīng)急預(yù)案如下:
1、接到停電通知后,應(yīng)及時通過辦公系統(tǒng)、電話等發(fā)布相關(guān)信息,部署應(yīng)對具體措施,要求在停電前停止業(yè)務(wù)、保存數(shù)據(jù)。
2、機房管理人員每日檢查UPS電源的狀態(tài),確保在突發(fā)停電時,UPS電源能自動供應(yīng)服務(wù)器正常工作15分鐘以上,保證員工工作的數(shù)據(jù)及時保存。
第五條 通信網(wǎng)絡(luò)故障應(yīng)急預(yù)案如下:
1、發(fā)生通信線路中斷、流量異常等故障后,發(fā)現(xiàn)狀況的員工或部門領(lǐng)導(dǎo)應(yīng)及時通知網(wǎng)絡(luò)管理員。
2、網(wǎng)絡(luò)管理員了解情況后,迅速組織檢測故障區(qū)域,并作相關(guān)故障處理,逐步恢復(fù)故障區(qū)與服務(wù)器的網(wǎng)絡(luò)聯(lián)接,恢復(fù)通信網(wǎng)絡(luò),保證正常運轉(zhuǎn)。
第六條 服務(wù)器故障應(yīng)急預(yù)案如下:
1、機房管理人員每日檢查機房內(nèi)各服務(wù)器狀態(tài)。
2、定期備份數(shù)據(jù)服務(wù)器數(shù)據(jù)。并將備份資料拷貝到移動設(shè)備。服務(wù)器出現(xiàn)嚴(yán)重硬件故障時啟用備用服務(wù)器以保障正常運轉(zhuǎn)。
第五篇:機房應(yīng)急預(yù)案
應(yīng)急處置方案
第一節(jié) 總 則
1、保證人員和財產(chǎn)的安全為前提的原則:在由于火災(zāi)或電力問題造成的主機故障,在解決故障前,應(yīng)以保證人員的生命安全和財產(chǎn)的安全為前提,然后進行故障的解決。
2、最快時間恢復(fù)業(yè)務(wù)的原則:本著先想盡一切方法,盡快恢復(fù)業(yè)務(wù)的原則來處理故障,如在有備用設(shè)備的情況下,主設(shè)備產(chǎn)生了故障,應(yīng)先盡快將應(yīng)用切換到備用機上,使業(yè)務(wù)能夠運行,再對故障設(shè)備進行診斷和維修。
3、故障應(yīng)急人員高度負(fù)責(zé)的原則:當(dāng)故障應(yīng)急人員在節(jié)假日接到故障通知時,本著高度負(fù)責(zé)的態(tài)度,應(yīng)迅速接手處理障礙,如遠(yuǎn)程無法處理解決,應(yīng)迅速趕到故障設(shè)備所在地,進行現(xiàn)場處理,處理故障的同時應(yīng)及時向領(lǐng)導(dǎo)匯報。應(yīng)急人員不可互相推卸責(zé)任,如因特殊情況,確實無法處理障礙,部門領(lǐng)導(dǎo)必須安排好其他人員處理。
4、盡可能全面的保留故障現(xiàn)場的原則:當(dāng)故障發(fā)生后,應(yīng)急人員應(yīng)盡可能全面的備份出能夠反映故障現(xiàn)象的各種日志、記錄、受損文件等,便于業(yè)務(wù)恢復(fù)后,對故障的分析、解決,杜絕故障的再次發(fā)生。
應(yīng)急方案的目標(biāo):保證預(yù)付卡運營系統(tǒng)連續(xù)安全穩(wěn)定地運行。
第二節(jié) 應(yīng)急領(lǐng)導(dǎo)小組
應(yīng)急領(lǐng)導(dǎo)小組成員:
組 長: 副組長: 成 員:
第三節(jié) 電源系統(tǒng)故障應(yīng)急處理
定期檢查信息中心機房電源設(shè)備的運行狀況,當(dāng)發(fā)生下列突發(fā)事件時,按以下方案進行處置:
當(dāng)中心機房發(fā)生市電供電突然停電或遠(yuǎn)程報警電源異常時。首先確認(rèn)是否為正常停電及預(yù)計停電時間。檢查不間斷電源的電池可供電時間,需在不間斷電源供電時效內(nèi)關(guān)閉所有服務(wù)器及網(wǎng)絡(luò)設(shè)備。
聯(lián)系工程部查看停電原因,盡快恢復(fù)供電,并將情況報告相關(guān)領(lǐng)導(dǎo)
工程部聯(lián)系電話:
第四節(jié) 空調(diào)系統(tǒng)故障應(yīng)急處理
定期對空調(diào)的運行情況進行檢查,如有報警信息,應(yīng)及時查找故障原因,對于不能自行排除的問題,應(yīng)及時與設(shè)備提供商進行聯(lián)系。
當(dāng)中心機房主空調(diào)因故障無法制冷,致使機房內(nèi)環(huán)境溫度超過攝氏40度時,打開機房房門,并關(guān)閉所有服務(wù)器及網(wǎng)絡(luò)設(shè)備。對于無法自行處置的空調(diào)系統(tǒng)異常情況,及時與設(shè)備提供商聯(lián)系,并報告公司領(lǐng)導(dǎo)。空調(diào)問題聯(lián)系人:
第五節(jié) 中心機房自動消防系統(tǒng)應(yīng)急處理
當(dāng)中心機房發(fā)生火警時,按以下方案進行處置:
1.上班工作時間發(fā)生火警,聽到自動消防系統(tǒng)發(fā)出的聲光報警后,中心機房附近辦公室人員應(yīng)及時緊急撤離,避免氣體自動消防系統(tǒng)啟動后,消防氣體對附近人員造成人身傷害。確認(rèn)火警后,立刻撥打119報警,并說明盡量使用氣體滅火器進行滅火,減少電子設(shè)備的損壞。
2.發(fā)生火警后,信息中心相關(guān)人員應(yīng)馬上趕赴現(xiàn)場,并向有關(guān)領(lǐng)導(dǎo)報告事故情況。同時立即聯(lián)系聯(lián)通等相關(guān)公司,及時評估事故損失情況,研討盡快恢復(fù)信息系統(tǒng)正常運行的最佳方案。安保消防中控電話:
第六節(jié) 設(shè)備、網(wǎng)絡(luò)系統(tǒng)故障應(yīng)急處理
設(shè)備、網(wǎng)絡(luò)應(yīng)用系統(tǒng)故障應(yīng)由發(fā)現(xiàn)人通知技術(shù)部,技術(shù)部門立即檢查故障,進行初步故障定位,解決;
1.網(wǎng)絡(luò)設(shè)備、服務(wù)器、儲存設(shè)備均有備份,當(dāng)設(shè)備存在硬件問題時,可隨時把業(yè)務(wù)切換到備份主機上,保證業(yè)務(wù)正常運行; 2.應(yīng)用系統(tǒng)每更新一次則做一次遠(yuǎn)程備份,在遠(yuǎn)程主機上分別備份舊的應(yīng)用系統(tǒng)和更新后的應(yīng)用系統(tǒng),以當(dāng)天的更新日期命名; 3.對磁盤柜上的數(shù)據(jù)庫文件有定時任務(wù),每天凌晨4:00會把數(shù)據(jù)庫里的數(shù)據(jù)文件倒出到遠(yuǎn)程備份主機上,以確保磁盤柜出現(xiàn)硬件故障的時候,數(shù)據(jù)文件不丟失;對于網(wǎng)絡(luò)、應(yīng)用系統(tǒng)出現(xiàn)硬件方面的故障,比較嚴(yán)重的問題,對業(yè)務(wù)的正常運行造成較大的影響,立即向有關(guān)領(lǐng)導(dǎo)報告。
4、網(wǎng)絡(luò)中有監(jiān)控服務(wù)器,運用Cacti v10最新的版本,監(jiān)控網(wǎng)絡(luò)所有設(shè)備(路由器,防火墻,交換機以及服務(wù)器設(shè)備);對設(shè)備本身的硬件檢測、外部入侵檢測、外部攻擊等多種對系統(tǒng)不利因素以發(fā)送mail的形式報警;相關(guān)人員收到報警信息,分析收到的log日志以做出相應(yīng)的處理。
5、每周周五對網(wǎng)絡(luò)設(shè)備進行日志及配置文件采集,對數(shù)據(jù)庫數(shù)據(jù)文件定期下載,和遠(yuǎn)程備份;在本地電腦上保存最近的配置文件,以便在發(fā)生毀滅性的災(zāi)難時,用來重組。
對簡單故障,運維人員應(yīng)迅速排除故障,解決問題并記錄。如果需要更換設(shè)備,應(yīng)上報有關(guān)領(lǐng)導(dǎo),經(jīng)批準(zhǔn)后馬上更換故障設(shè)備,盡快恢復(fù)網(wǎng)絡(luò)、應(yīng)用系統(tǒng)運行。運維部門判斷無法及時修理時,應(yīng)立即通知相關(guān)的系統(tǒng)運行服務(wù)提供商,在最短的時間內(nèi)安排修理或更換系統(tǒng)。
如發(fā)現(xiàn)屬外部線路的問題,應(yīng)與線路服務(wù)提供商聯(lián)系,敦促對方盡快恢復(fù)故障線路。
啟用備份線路、設(shè)備、系統(tǒng),迅速恢復(fù)相關(guān)的應(yīng)用。
聯(lián)通聯(lián)系電話:
第七節(jié) 黑客入侵的應(yīng)急處理
發(fā)現(xiàn)網(wǎng)絡(luò)上有黑客攻擊行為,任何人員都有義務(wù)向技術(shù)部門報告。技術(shù)部立即啟動應(yīng)急響應(yīng),切斷受攻擊計算機與網(wǎng)絡(luò)的連接,停止一切操作、保護現(xiàn)場,并上報有關(guān)領(lǐng)導(dǎo)。
對于黑客攻擊,由計算中心組織應(yīng)急響應(yīng)專家小組查找入侵蹤跡,分析入侵方式和原因。由安全管理員根據(jù)對入侵事件的分析,組織相關(guān)人員對內(nèi)部網(wǎng)計算機整改,防止黑客用同樣的手段再次入侵其他系統(tǒng)。安全管理員檢查確定無安全隱患后,才可將受攻擊計算機重新連接網(wǎng)絡(luò),或啟用備份計算機來恢復(fù)應(yīng)用。
安全管理員應(yīng)做好記錄,保護現(xiàn)場,進行日志收集等工作。如果能追查到攻擊者的相關(guān)信息,可以對其發(fā)出警告,必要時可以采取進一步的行動,乃至采取法律手段。根據(jù)破壞程度,經(jīng)有關(guān)領(lǐng)導(dǎo)同意后,上報公安部門。
若系統(tǒng)已被黑客破壞,無法恢復(fù),應(yīng)將受黑客攻擊的計算機上的重要數(shù)據(jù)備份到其他存儲介質(zhì),確保計算機內(nèi)重要的數(shù)據(jù)不丟失。如果數(shù)據(jù)無法恢復(fù),經(jīng)有關(guān)領(lǐng)導(dǎo)同意后,可與國家指定的部門聯(lián)系,由他們來協(xié)助恢復(fù),為保證數(shù)據(jù)信息安全,需在安全管理部門作記錄。
第八節(jié) 生產(chǎn)系統(tǒng)、數(shù)據(jù)庫故障處理
生產(chǎn)系統(tǒng)出現(xiàn)故障,技術(shù)部做出應(yīng)急處理
1.因軟件設(shè)計缺陷、設(shè)計漏洞等引起的故障,通知公司研發(fā)部門在2小時內(nèi)查明原因,解決問題。
2.數(shù)據(jù)庫出現(xiàn)故障,運維人員應(yīng)在2小時內(nèi)查清故障原因,其他相關(guān)部門應(yīng)積極配合,解決問題。
3.如出現(xiàn)數(shù)據(jù)丟失情況,確認(rèn)不能自行恢復(fù)后,啟用備份恢復(fù)數(shù)據(jù),24小時內(nèi)恢復(fù)運營。
本方案自發(fā)布之日起施行