第一篇:電力通信運維管理系統設計與實現管窺
電力通信運維管理系統設計與實現管窺
【摘 要】隨著我國通信技術的迅猛發展,逐漸有了越來越大的通信行業的發展規模,也會增大覆蓋的范圍。另外,在實際的生產活動當中有了越來越復雜以及龐大的需要交換的信息和數據,這已經在很大程度上超出了傳統方式能夠處理的實際范圍。將通信技術引入到現代化的生產活動當中,能夠有效促進信息的交換,進而提高數據處理的效率。在這樣的形式之下,應該設計并開發出基于通信技術業務流程的一個管理系統,該系統應該有效保證企業當中信息交換的準確、方便以及快速。在本文中,簡單描述了電力通信運維管理當中存在的一些主要問題,闡述了系統設計的目標和原則,并分析了管理系統的實現。
【關鍵詞】電力通信 運維管理 系統設計 原則 實現
在電力系統當中,系統通信是非常重要的一個組成部分,它包含的主要業務有電網的生產、營銷以及調度,屬于保證電網經濟、穩定、安全、高效運行的一個非常重要的技術方面的支撐。隨著電網建設的不斷信息化和智能化,在很大程度上壯大了電力通信網的實際規模,也增加了結構的復雜性。為了能夠對電力通信網的穩定發展進行更好的適應,對電力通信網的整體質量進行提高,優化管理運作的實際水平,應該對電力通信運維的管理進行足夠的重視,有效保證通信運維工作的高效性、可靠性、規范性以及有效性,保證電網業務當中具有的綜合能力。
1分析電力通信運維工作管理當中存在的問題
現階段,電力通信的相關運維工作管理正在逐漸擺脫人工管理的階段,向著電子化管理階段發展,然而,在實際的工作管理當中仍存在著一定的問題。
1.1沒有足夠完善的運維部門工作的管理
通常情況下,運維部門的日常工作管理主要包括對相關的工作管理進行工作方面的計劃以及通知。現階段,沒有非常標準的記錄填寫格式,沒有極其嚴格的規范,有著各種口語化的描述,對運行狀況的查詢很難及時快速的進行;有著比較落后的數據統計方法,同時也有著比較低的工作效率,根本就不能為報告提供科學、有效以及全面的依據。應該對值班工作的相關記錄進行規范統一,同時對工作記錄進行集中性的管理,對日常的運維工作進行更加高效、規范以及快捷的完成,進而保證運維的基礎工作。
1.2 不能有效實現運維工作的全過程管理
一般來講,運維部門的調度管理在一定程度上要求有效實現故障業務的處理以及及時檢修的工作方面的閉環管理,在實際的調度管理過程中,需要多個協作的部門來進行故障的處理,同時完成檢修的相關工作,并對實際的過程進行跟蹤記錄。現階段,相關的業務流程對逐漸發展變化的情況根本不能完全的適應,常常會產生跟隨流程的反復性的工作,根本不能對工作效率的實際情形進行有效的提高,這會在很大程度上限制相關工作的協調調度,應該在一定意義上提供全面完善的,同時能夠有效支持變更的控制以及管理,有效實現全程新流程的管理,方便日后的相關工作總結,對同類的故障時延進行一定的降低,進而提高網絡運維的管理水平。
1.3運維管理和其它的通信管理系統之間沒有足夠強大的互聯互通
通信資源管理與運維工作管理的發展以及監控水平有著一定的差異,各個系統之間嚴重缺乏整合、數據的交互、資源的共享以及系統之間的聯動。因為通信網有了逐漸廣泛的發展范圍以及逐漸多元化的業務需求,這就導致運維管理工作根本不能跟隨其快速發展的腳步,在及時性以及效率方面有著些許問題。
1.4 沒有非常強的運維工作的經驗交流與分析總結
眾所周知,運維管理當中的工作分析、工作總結、工作經驗以及報告能夠為運維工作有效的積累經驗,為處理故障提供有效的建議來逐漸完善以及優化已經形成的相關運維部門當中的經驗庫和專家庫,能夠有效共享知識以及經驗。
2系統設計的目標與原則
2.1系統設計的相關目標
經過對電力通信運維管理工作當中的基本工作流程進行探討,得出了系統設計的具體目標,具體表現為:運用該電力通信的運維管理系統能夠有效管理相關的日常工作,這在很大程度上能夠有效推進所有部門工作的信息化、系統化、辦公自動化以及規范化的程度,利用軟件系統能夠實現在線完成電力通信的運維管理工作,進而來實現管理、通信效率的最終目的。
2.2系統設計的相關原則
(1)穩定性與安全性。在整個系統當中,穩定性與安全性是保證穩定運行以及滿足實踐需要的非常重要的因素。數據安全屬于系統運行的一個重要的支撐以及關鍵,為了有效保證系統數據的安全性,應該數據進行存儲加密,利用身份驗證以及權限控制來對用戶數據的訪問權限進行控制,避免泄漏比較重要的數據,另外建立起健全完善的實時備份的相關策略,避免數據由于硬件故障或者軟件錯誤而損壞或丟失。系統的穩定性是能夠正常運行的根本,所以,在設計系統時,應該保證較高的容錯性以及較強的兼容性,對比較重要的數據進行二次的校驗,進而有效保證系統的穩定運行。
(2)可用性與易用性。通常情況下,可用性指的主要是系統可以對當前的業務需求進行最大限度的滿足,并且還應該兼顧未來的實際發展需要,并對相關的接口進行預留。在進行了反復的對比之后,最終決定使用總體設計以及分步進行實施的方案來確定系統的技術路線。首先應該對總體的設計方案進行確定,并根據總體方案的相關指導來實現日常工作和具有現實意義的功能模塊,在實際的實現過程當中應該特別考慮模塊的可用性與可靠性。除此之外,應該運用硬件的容錯處理來對系統底層進行管理,進而有效保障硬件以及軟件的可靠穩定。之后依靠螺旋模型安全穩步過渡到更高權限的管理功能以及更多功能的功能模塊。根據上面提及的操作步驟來進行具體的實施,能夠在很大程度上讓整個系統緊密聯系硬件環境以及使用者的實際需求,同時還能夠及時的得到試驗以及調試,另外,還能有效保障系統在未來具有一定的平滑性、擴充性以及連貫性。
另外,易用性指的主要是對于直接的用戶來講,系統當中的易于學習與使用、可以有效減輕記憶負擔、方便操作等特點。對系統的直接用戶不同的計算機操作水平以及熟悉業務程序的實際程度進行充分的考慮,因此,應該設計友好簡潔的系統用戶界面。為了更加方便不同權限用戶來操作以及運行軟件,利用界面將系統當中的大多數功能及具體的操作方法清晰的傳達給用戶,并有效配置健全完善的幫助系統,能夠更好的方便對系統問題進行及時的處理,對系統操作更快速的掌握。
(3)獨立性與協作性。其中,獨立性主要是指系統當中的各個功能模塊獨立的基礎上,可以很好的完成所屬業務部門的相關工作流程,可以對輸入的數據進行正確接收并處理,進而構造出符合相關要求的數據來輸出。而協作性指的主要是各個模塊間可以按照工作的處理步驟和數據約束,根據系統接口來組成完整層次的系統。
3電力通信運維管理系統的具體實現
建設完成系統的結構以及數據庫后,接下來就需要來實現系統的相關功能。首先來講,應該對數據實現建模,記錄電力通信運維管理當中的工作,組織并管理相應的數據資料,進而有效保證數據與調度值班的一致性,當實現該功能時,應該做好業務模型、告警數據模型、表單模型以及設備資源模型等,當錄入數據庫當中的數據時,能夠按照工作當中記錄的數據,在數據表當中進行分別的錄入,對現實工作當中的事件進行模擬,運用系統來進行實施。在數據的選取時,應該運用統一的采集數據的標準,有效保證業務的相關性以及資源的相關性。
其次,應該嚴格規范業務流程,實現系統和工作之間的有機結合,當對流程進行規范之后,應該保持系統與業務流程的標準化,進而實現業務工作自動化處理的有效促進,因為完成系統功能的相關設計之后,那么在各個功能模塊當中就包含著相關的處理業務的功能鍵,系統能夠完全完成日常的維護工作,例如現場的作業管理等,在相應的功能模塊當中對執行方式進行了一定的保護,消除了缺陷、驗收生產、設備的清掃以及巡視等,對相應的功能鍵進行點擊,那么就能夠進入到相應的子功能的模塊當中,在該模塊當中,包含著比較常用的修改、刪除以及添加的功能鍵,同時還包含著基本的網絡維護的信息,例如,執行方式單、工作位置、儀器儀表、耗材使用等,當出現維護站點時,那么相關的工作人員就能夠在系統當中查詢以及維護,并做記錄。
4結語
經過探討電力通信運維管理的相關系統設計以及實現,對該系統進行設計與實現所需要的基礎工作有了一定的了解,要想很好的實現相應的功能應該依賴基礎數據,因此,應該根據基本的數據來有效保證數據資源的準確性以及唯一性。為了保證電力通信運行的安全性和穩定性的提高,那么必須將信息化管理滲入到運維管理工作當中,進而來適應相關的運行要求,保證企業的社會效益以及經濟效益。
參考文獻:
[1] 楊雪.山東電力通信網綜合管理系統設計及應用[J].電力信息化,2013(5):11-12.[2] 張濤.電力通信綜合資源管理系統設計[J].電子與通信工程,2011(08):42-43.[3] 王萍萍.電力通信信息化系統建設思路的探討[J].電力系統通信,2011(2):12-13.
第二篇:IT運維服務管理支撐系統的設計與實現
(三)監控功能
圖1傳統IT運維模式與IT運維模式的比較
圖2服務管理的基本原理
此功能設計的作用是監管和控制每個用戶在使用時各項功能的實時運行情況與數據。在此平臺日常的運行中,對硬件、軟件設備配置的管理是負責軟、硬件能否順利運行、功能特點是否完全運行、出現問題時能否自我修復等,以及負責對下指令的發放與管理。還包含對軟、硬件設備在運行時各種數據的搜集、整合、管理與分析,另外就是在出現問題時要能夠
及時自我報警、提示問題出現在哪里并發出警報,如能完成對出現問題位置的準確定位是效果最好的。最后,還要能實現對系統運行時占用并使用了那些資源能夠及時顯示,為用戶合理分配資源進行數據參考。
(四)對系統平臺安全性進行監管
在現在人人都懂一些互聯網技術的時代,對于網絡安全的管理亦是同等重要,它主要是保障整個系統能夠平穩、流暢、安全的使用,它的主要任務之一就是對計算機病毒的攔截與刪除,利用此功能,使系統在接觸陌生用戶或者外來數據的傳入時能夠自我有效的阻攔陌生文件或病毒的入侵,從而保障整個系統的安全。二是要對系統內每天登陸、錄入用戶操作等行的數據形成日志文件保存起來并進行有效的管理。三是對用戶的管控,主要指新用戶的增加、無效用戶的刪除、對用戶詳細信息的查詢、用戶自我修正個人信息等操作。
二、對系統配置、管理、信息發布的管控
(一)對系統配置的管控
此功能的作用是整個系統的運行中所有硬件之間的配合、相互之間的運行進行保護與分別識認,以便能夠更有效的管理日子信息的修改與公開。另外也會保證基本設備、基本服務建立的模式進行一個初步的建設。建立它的主要任務就是為我們的目標客戶提供一種管控數據的方式、展示出整個系統真實的配制數據,使硬件系統的質量能夠更好的相互配合,發揮其最大的效能,合理的分配各個存儲設備的資源運用。
(二)對系統變更的管理
在整個系統的運行有效期中,不論是硬件設備,還是軟件的配置都有其一定的運行周期,不可能一直無限的運行下去,或者是有時整個系統的為之服務的對象也會有變化,因此對于服務系統的資產和軟、硬件配置的改變是必須要依靠相關系統功能來實現的。在系統的設計與搭建過程中,尤其要注意對各種變更操作的記錄,每一次變更可能引起的風險評估,以及最重要的就是對于更重變更操作應當建立起相應規范的、合理的審批和操作程序。這一項中就應該包含對系統物理環境的管控、維修、操作有關的硬件配置、日志文件記錄。
(三)對信息的發布管理
在這一項系統功能的實現中,主要是包含每個功能模塊、操作程序、系統測試數據的公布和整理。在程序的生產環境情況下,對于何種信息、如何審批、如何公布進行安排。在信息發布過程中,不僅要在生產環境中進行提前的安排,同時要對系統的服務進行合理有效的安排,將安排的信息能夠切實的運用起來。
三、整個系統功能的有效實現
在IT運維服務系統整個運行過程中,對一些良好的數據庫開發工具亦有著很好的運用,也進一步對于整個系統的流暢運行提供了優秀的數據支持。這在系統的真是運行過程中,不僅涉及到軟、硬件的配置、系統變更的管控、日志文件的發布等各個方面。在系統的開發過程中,在數據庫中保存的程序運行結構圖一般都是放在系統界面的右側,在整個流程的設計中,已經包括了對各個子功能模塊流程的顯示。基于此,在對系統中的一些字段、數據庫內表格的設置進行進一步的管理與配置。在我們對系統進行整體測試運行時,這種技術的應用,能夠使整個系統發揮出其最好的效果,并且能夠同時保持住整個系統在運行時保持穩定、維護系統的安全。同時也會使用戶在使用系統的時候能夠及時了解各個功能的實現與具體的操作流程沒從而更好的發揮整個系統的最大效用。
四、結語
在現在這個互聯網技術飛速發展的時代,軟、硬件不斷更新、IT技術不斷創新,而且我們的社會生活中也越來越多的融入了互聯網技術,使我們的生活品質和工作環境登發極大地改善,最重要的是提高了我們生活與工作的效率。但是IT系統要想能夠發揮最大的效用,就需要有良好的運維服務系統做支撐,因此只有把服務管理支撐系統做的合理、有效,才能夠有效的對IT系統和IT資源進行合理、有效的運用。參考文獻
[1]尚云云.IT運維服務管理支撐系統的設計與實現[D].北京交通大學,2009.[2]張偉俊.成飛所IT運維管理系統的設計與實現[D].電子科技大學,2013.[3]姚國旺.信息系統運維服務支撐平臺設計與實現[D].華南理工大學,2013.[4]商秀杰.某電商云平臺業務運營支撐系統的設計與實現[D].中國科學院大學(工程管理與信息技術學院),2014.
第三篇:運維管理系統建設
ITIL提升中國電信運維管理系統建設
ZDNet CIO頻道 更新時間:2008-01-25 作者: 來源:CSDN 本文關鍵詞: 中國電信 ITIL 運維管理
運維管理是電信運營商主要的生產和管理活動之一。運維管理系統建設和運營的好壞直接影響到電信運營的整體成本、管理水平和服務水平。因此,近兩年來,各大電信運營商紛紛對現有的運維系統進行改造。
中國在電信領域的增長速度超過了其GDP增長的速度。正是電信快速的增長,推動了運維系統的發展。如何更有效地利用現有的資源,提高運營維護的工作效率,提高整體服務質量是目前各大運營商面臨的普遍問題。毫無疑問,中國電信在運營維護方面,也面臨相同的問題。建設新一代中國電信運維管理系統,成為解決目前運維管理問題的唯一方案。
根據我們長期在電信領域的實踐,下面的幾點經驗,值得我們在中國電信運維系統的建設中更加關注。
一、采用ITIL作為運維系統的方法論
IT基礎架構庫(ITIL-ITInfrastructureLibrary),被譽為IT服務管理的圣經,其中包含了總結國際大公司在IT服務管理中的經驗并得到證明的IT服務計劃和運營的最佳實踐框架。
ITIL已經為《財富》500強的一些企業所采用,并取得了預期的效果。加特納(Gartner)和國際數據集團(IDC)等世界權威研究機構的調查研究表明,企業通過在IT部門實施最佳服務管理實踐,將因重復呼叫、不當的變更等引起的延誤時間減少了79%,每年每個終端用戶平均節約800美元的成本,同時每項新服務推出的時間也縮短一半。
要成為國際一流的企業,就要吸取國際一流企業的成功管理經驗,借鑒其管理手段。因此,中國電信在運維管理系統的建設,也應確立ITIL在系統建設過程中的方法論地位,吸取ITIL中的成功經驗。
作為眾多國際大型企業成功實踐的積累,ITIL使我們找到了解決運維流程規范的方式和方法。可是,如何更好地運用ITIL這一經典的方法論呢?我們認為應該注意兩點:
1)ITIL是從實踐中得來的精髓,不是僵化的教條,應該結合實際情況去運用ITIL,建立更加適合中國電信的流程規范,而不是照抄照搬。
2)由于ITIL理論博大精深,不可能在短期內在企業中全面實施。應該根據實際情況,選取實施重點,逐步實施,逐步完善。
在中國電信運維系統建設中,應該深入理解ITIL的核心理念,結合電信運維的現狀,解決核心和關鍵問題,逐步實現對運維的科學管理。
二、ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵
理順工作流程、提高服務效率是新運維系統建設的主要內容之一。
在工作流程的制定過程中,容易陷入以下兩個極端。
1.盲目照搬流程。作為方法論的ITIL,本身含有大量的成功實踐框架。但是,正如前面所說的,ITIL是從實踐中得來的精髓,不是僵化的教條,盲目照搬,只能使得工作流程不切合實際,并流于形式,對系統的貫徹和執行產生不好的影響。
2.完全遵照現有流程,實現其電子化。雖然這樣更符合目前的工作習慣,可能容易為運維人員所接受,但是,仍然解決不了目前運維所存在的一些問題。例如,我們在項目實施中曾遇到“工單在部門之間的重派”的問題。在當前手工作業的工作模式中,各單位將不屬于本單位處理范圍的工單,或部門需要其他部門配合的工單,均提交給故障處理的負責人,由該負責人向其他單位進行轉派和重派。這種處理方式,主要便于手工作業條件下負責人及時了解項目處理狀況。在建立運維系統后,負責人可以通過運維系統隨時了解到故障的處理狀況,每次重派和轉派之前,對負責人的回復變成了一種無效的工作,大大降低了事件的處理效率。如果僅僅將目前的手工作業電子化,那么故障處理的效率仍然沒有得到有效的提高。
因此,將ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵。
三、樹立主動服務觀念
在現行的運維工作中,我們經常遇到這樣的情況:一方面是運維部門疲于應付各種突發事件,加班加點處理各種重復事件,工作繁重,身心疲憊;一方面是客戶代表不斷抱怨和投訴“技術人員服務水平太低”。二者不可調和的矛盾,是新運維系統要解決的重要問題。
傳統的運維方式給人的印象是:故障發生前,維護人員似乎無所事事;故障發生后,則是手忙腳亂。這就是被動服務給人們留下的印象,運維人員是在被動地等待故障的發生。在新的運維系統中,我們必須改變原有的運維方式,變被動服務為主動服務。
在主動服務模式下,運維人員主動地監控系統的變化,對日常工作及故障處理完成后主動進行問題分析,對系統的變更風險進行評估。在新系統中,可以通過種種技術措施,使得運維工作從被動服務轉移到主動服務,如:增加變更管理流程以防范變更風險。
在日常運維工作中,變更工作是在所難免的。例如,新的系統安全漏洞被公布,為了保證系統安全,就需要安全系統補丁,而這種變更給系統帶來的風險則是難以估計的。例如在安裝補丁后,有時會產生大量莫名其妙的問題。這么一個簡單的例子已經可以說明,如果沒有很好的風險防范手段,系統變更將給我們的日常運維工作帶來大量的問題,后果往往是難以想象的。在新系統中,我們可增加變更管理流程。在變更管理流程中,變更方案需提交變更經理,由變更經理組織由專家組成的變更顧問委員會(CAB)對變更進行風險評估,在評估通過后才能夠進入變更的實施過程。變更管理是防范變更風險的最好辦法。
當然,主動服務是一種理念,在這種理念下,我們可以定義更多的流程,如問題管理流程,對系統中存在的隱患問題進行挖掘,防患于未然。總之,我們應該樹立這樣一個理念,在各流程的定義中進行運用,主動地提早發現系統存在的風險和隱患,減少突發事件的發生。
四、從平臺到業務的全面管理
網絡管理是運維系統的組成部分。對系統的監控也是運維的主要業務之一。以往網管系統實現了對平臺的監控,可是在實際運維工作中,平臺往往只有少數的幾個系統管理員負責,大多數業務人員更多地是面對業務系統。對于業務的監控和管理,是業務人員更加關心的問題。因此,在網管系統中,應加入業務監控的內容。
需要注意的是,業務是建立在平臺的基礎之上的,而不是孤立存在的。因此,監控中,應強調業務監控與平臺監控密不可分的聯系,從業務的角度出發,建立平臺與業務的關聯關系。在故障發生時,應能夠即時描述對業務的影響程度,能夠描述故障的影響范圍。
例如:采集源的某臺交換機產生異常,除了可以看到交換機告警外,我們還應該能夠在業務拓撲圖中直觀看到,采集系統受到影響,同時采集、預處理、分揀等相關業務也不同程度受到影響。其影響程度,能夠通過不同的顏色直觀地展示出來。
只有這樣才能夠更加直觀而全面地反映系統的運行狀態,反映業務的運行情況。能夠幫助運維人員在故障發生時,快速修復關鍵部件,減少故障帶來的損失。
五、建立科學的激勵與監督機制
多年來,系統的使用和推廣問題成為系統能否得到良好運用的一個重要問題。
假設:我們制定了變更管理流程,但是,變更管理沒有被很好地執行,而只是流于形式,則風險的防范也只能是停留在理論上的空談。
在運維系統建設過程中,建立了一整套科學的考核制度,以激勵運維人員更有效地提高服務質量和服務水平,是至關重要的。
對運維人員的考核,并不能就管理論管理,應該從客戶服務的角度出發,以客戶滿意為前提,進行考核。例如,根據每個部門的服務水平,制定了服務時限。假設,某個用戶投訴,需要多個部門協同進行處理。在處理過程中,各部門互相推托,雖然工單在各部門的停留時間沒有超過部門承諾的時限,而整體處理時間已經超過了運營商對該用戶承諾的處理時間。為了杜絕這種現象的出現,我們應該從用戶的角度出發,進行各部門處理時間的分段計算。計算結果將反映在每月故障處理情況的統計報告中,而這些報告直接與各部門、各單位的績效考核掛鉤。
通過這樣的考核機制,形成對員工日常工作的科學評價,既調動了員工積極性,又提高了工作效率和服務質量。
第四篇:運維管理系統方案
運維管理系統方案
概述
伴隨著企事業網絡規模的不斷擴大,企事業服務器的增多,企事業管理的信息化,企事業網絡管理也變的越來越重要。一旦網絡、服務器、數據庫、各種應用出現問題,常常會給企事業造成很大的損失。怎樣能7x24小時檢測網絡系統的運行情況,避免各種故障的發生,改進傳統的網絡管理方式來適企事業信息化發展的需要?
因此,運維管理系統就有他的必要性。一個完備的運維管理系統能夠提供7x24小時檢測網絡、服務器、數據庫、各種應用系統,及時發現將要出現的問題,并通過短信、Email、聲音報告給運維管理人員。運維管理人員就可以及時排除故障,避免造成重大損失。
? ? ? ? ? ? ? ? 運維管理系統的功能:
故障發現與警報;
記錄日常運維日志信息; 服務器故障統計;
服務器軟硬件信息統計; 服務進程管理;
將數據信息存儲到數據庫,并使用圖形方式直觀的展示出來; 權限、密碼管理; 將數據生成報表。運維管理系統的特點: ? ? ? ? ? ? ? 郵件和短信實時故障報警;
B/S結構,能夠通過web對遠程服務器下達指令;
監控服務器和被監控服務器之間通過python socket來發送信息; 統計日常故障處理,以便下次出現同樣故障時能夠更快的解決問題; 實現自動化管理和自動化監控; 安全管理服務器性能; 操作流程統計與管理。
第五篇:系統運維管理-IT基礎設施運維管理規范
IT 基礎設施運維管理規范 文件編號:運維-002-V1.0
目錄
運維管理規范--------------4 1.目的------------------------4 2.適用范圍------------------4 3.規范性引用及參考-----4 4.本文術語,定義和縮略語---------------------------5 5.基本要求------------------6
5.1運維管理原則-----6 5.2制度和流程管理6 5.5供應商管理--------7 5.6督促檢查-----------7 6.運行維護------------------8
6.1日常操作及監控分析--------------------------8 6.2 數據與介質管理-8 6.3機房管理-----------9 6.4 網絡管理----------9 6.5 弱電管理---------10 6.6桌面維護----------10 6.7服務器及系統變更----------------------------11
6.8 配置管理---------12 6.9 事件與問題管理 12 7.應急管理-----------------12
7.1應急準備----------12 7.2應急處置----------13
運維管理規范
1.目的
為規范公司運維工作,使相關工作具有持續改善及相互協作性,同時加強計算機設備的管理及維護,確保維修工作的及時性,降低計算機設備的報修率,實現業務與技術的融合,將業務部門與IT 部門緊密結合在一起,根據公司管理要求及計算機應用的需要,由運維部制定。
2.適用范圍
本規范規定了運維管理工作的要求。
本規范適用于維信理財集團(中國)總部,包括全國各分部及門店。
3.規范性引用及參考
◆ IT 服務管理國際標準ISO/IEC 20000 ◆ 企業獲得ISO/IEC 20000認證的權威指南 ◆ 全球著名IT 服務管理書庫(ITSM Library)◆ IT 服務質量管理原則
◆ 理解ISO/IEC 20000在IT 服務中的地位 ◆ ISO/IEC 20000規范和實踐準則 ◆ IT 服務管理國際標準ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技術 信息系統安全管理要求
◆ ISO 31000:2009 風險管理 原則和指南(Risk management--Principles and guidelines)
◆ JR-T 0060—2010 金融信息系統安全等級保護基本要求 ◆ JR/T 0074-2012 金融IT 服務管理基本規范 ◆ 中國金融標準化報告(2011)
4.本文術語,定義和縮略語
1、IT: Information Technology 信息技術
2、DNS: Domain Name Service 域名服務
3、DHCP: Dynamic Host Configuration Protocol 動態主機配置協議
4、VPN: Virtual Private Network 虛擬專用網
5、OA: Office Automation 辦公自動化系統
6、ISO: International Organization for Standardization 國際標準化組織 編訂日期:30.7.2014 批準日期: 生效日期:
7、故障: IT設備或系統喪失規定的功能,導致服務中斷或降質,或對正常運行造成潛在威脅。
8、異常: IT設備或系統的狀態發生超出預期的變化或性能指標參數超出正常范圍,有可能引發或已經引發故障,需要引起運維人員關注或處理。
9、資料: IT設備或系統的運行記錄,包括IT 設備或系統的配置、故障歷史記錄、軟硬件擴容或調整記錄、權限變更申請記錄等。
10、運行維護:本規范中的運行維護包括IT 基礎設施維護、IT 應用系統運維維護、安全管理、網絡接入、內容信息以及綜合管理等。
5.基本要求
5.1運維管理原則
公司按集中與分散相結合的原則,設立機房、各部門配備電腦。計算機系統本著“總體規劃、分步建設”的方式實施建立。
計算機系統建設應綜合考慮成本、費用、效率、效果、先進性及適用性,選擇最優技術、經濟方案。
5.2制度和流程管理
運維管理制度應包括但不限于機房管理、網絡與系統管理、數據和介質管理、配置管理、安全管理、監控管理、文檔管理、設備和軟件管理、供應商管理等制度。
運維操作流程應包括但不限于日常操作、事件處理、問題處理、系統變更、應急處置等流程。
5.3 文檔管理
對運維過程中涉及的各類文檔進行管理,可按照制度文檔、技術文檔、合同文檔、審批記錄、日志記錄等進行分類,并妥善保存。5.3.2 對文檔的版本應當進行控制。
文檔在使用時應能讀取、使用較新版本,防止作廢文件的逾期使用。
5.4設備和軟件管理
建立計算機相關設備和軟件管理制度,對設備和軟件的使用、安裝、維修(升級)等進行規范。明確設備和軟件管理責任人。對設備進行標識,標識應放在設備明顯位置。
規定設備和軟件的使用年限,定期進行盤點,并對設備狀態進行評估和更新。
對外送設備的維修進行嚴格管理,防止數據泄露。
對擬下線和擬報廢設備的存儲介質中的全部信息進行清除或銷毀。對正式下線設備和軟件交指定部門統一管理、保存或處置,并保留相應記錄。設備和軟件報廢應符合公司現行資產管理規定。
5.5供應商管理
對供應商支持運維服務的相關活動進行統一管理。
在與供應商簽訂的合同中明確其應承擔的責任、義務,并約定服務要求和范圍等內容。
應定期收集、更新供應商信息,組織對供應商的服務質量、履約情況、人員工作情況等內容進行評價,并跟蹤和記錄供應商改進情況。加強運維外包服務管理,主要包括:
a)明確外包公司應當承擔的責任及追究方式;
b)明確界定外包人員的工作職責、活動范圍、操作權限; c)對外包人員工作情況進行監督和檢查,并留存相應記錄; d)對駐場外包人員的入場和離場進行管理; e)定期評估外包的服務質量; f)制定外包服務意外終止的應急措施。
5.6督促檢查
定期檢查審計,對運維制度的執行情況和運維工作開展情況定期進行檢查和審計,以督促運維工作持續改進。
指定人員負責對日常操作執行情況進行檢查,確保運維管理制度和操作流程的有效執行。對檢查和審計結果采取糾正、預防措施。
6.運行維護
6.1日常操作及監控分析
未經許可,任何人不得隨便使用電腦及相關設備。不得更換電腦硬件和軟件,拒絕使用來歷不明的軟件和移動設備。
電腦發生故障時,使用者作簡易處理仍不能排除的,應立即報告IT,非專業管理人員不得擅自拆開機箱或調換設備配件。
計算機及其相關設備的報廢需經過IT 部門或專職人員鑒定,確認不符合使用要求后方可申請報廢。
運維應采取各種監控措施,配備視頻、語音、系統監控和報警工具,對影響信息系統正常運行的關鍵對象,包括機房環境、網絡、通信線路、主機、存儲、數據庫、核心交易業務相關的應用系統、安全設備等進行監控。
主要監控指標具體如下:
a)機房:電力狀態、空調運行狀態、消防設施狀態、溫濕度、漏水、人員及設備進出等;
b)網絡與通信:設備運行狀態、中央處理器使用率、通信連接狀態、網絡流量、核心節點間網絡
延時、丟包率等;
c)主機:設備運行狀態、中央處理器使用率、內存利用率、磁盤空間利用率、通信端口狀態等;
d)存儲:設備運行狀態、數據交換延時、存儲電池狀態等;
e)安全設備:設備運行狀態、中央處理器使用率、內存利用率、端口狀態、數據流量、并發連接數、安全事件記錄情況等;
6.2 數據與介質管理
配合數據應用部,對核心業務數據進行周備份,并每季度進行恢復性測試。
對設備和人員出入進行管理。進入機房應限制和監控其活動范圍,并有專人陪同;未經批準不得接入生產環境。
6.3機房管理
對機房環境、供電、空調、消防、安防等基礎設施的運行維護、設備和人員出入、機房工作人員等進行規范管理。
應指定機房管理負責人。確保機房環境整潔和安全,包括:
a)應定期檢查防水、防雷、防火、防潮、防塵、防鼠、防靜電等措施的有效性;
b)應保持機房環境衛生,設備擺放合理,歸類; c)不得隨意出入機房。
d)未經審批不得接入其它用電設備。
6.4 網絡管理
確保網絡、系統的正常運行。網絡管理應包括: a)繪制網絡拓撲圖,并保持更新;
b)應保持網絡設備的可用性,及時維修、更換故障設備; c)應負責網絡系統的參數配置、調優; d)應定期對系統容量進行檢查和評估;
e)應定期檢查網絡設備的用戶、口令及權限設置的正確性;
f)應定期對整個網絡連接進行檢查,確保所有交換機端口處于受控狀態; g)應對網絡信息點進行管理,編制信息點使用表,并及時維護和更新,確保與實際情況一致。計
算機網絡跳線應整齊干凈,跳線標識清晰;
h)應制定網絡訪問控制策略,應合理設置網絡隔離設施上的訪問控制列表,關閉與業務無關的端口;編制文檔并保持更新;訪問控制策略的變更應履行審批手續。
權限管理應包括如下要求:
a)權限分配應履行審批手續,權限設置后應復核; b)應按照最小安全訪問原則分配用戶權限; c)應在用戶賬戶變化時,同時變更或撤銷其權限; d)應定期檢查權限設置的有效性。
6.5 弱電管理
嚴格按圖紙施工,在保證系統功能質量的前提下,提高工藝標準要求,確保施工質量。質量檢查制度,現場管理人員將定期進行質量檢查并貫穿到整個施工過程中。統運行驗收:當設備安裝完畢并調試運行無誤后,由公司派現場調試人員進行系統聯調,并向上級匯報調試結果。運維對弱電設備的綜合管理,包括技術資料、檔案的收集。同時,每月一次對弱電設備運行狀況進行檢查,并及時處理匯報問題。
6.6桌面維護
日常數據注意事項:
a.個人文件(Excel、Word、PDF 等)建議員工不要存放在系統盤(通常為C 盤),可以存放在其它盤符。
b.工程師可通過多種方式或途徑來告知員工如何進行日常文件的備份,如:口述、郵件、培訓等。
c.未經許可,禁止使用U 盤,移動硬盤,手機或其它外設,如:網盤、郵箱等,盜取公司內部文件。
重裝系統前注意事項:
a.詢問用戶有哪些相關數據需要備份,如桌面、我的文檔、收藏夾、郵件等。b.用戶Email 的備份:如客戶端為Outlook 則導出相關OST 或PST 文件;硬件損壞需更換或維修時,運維人員進行測試,明確是否真實異常,不可隨意更換。
關于賬號、權限、密碼
a.必須嚴格按照公司制定的IT 策略進行管理,不可私自制定規范。b.禁止私自把個人管理員權限借給他人或告知他人。
c.禁止為他人開設規定以外的權限,如:本地管理員、其他部門目錄訪問權限、上網權限、電話權限等。
d.更改任何類型用戶權限時需得到相關審批層級確認才可執行。e.如電腦無特殊應用需求,則一律為“user”普通權限。
f.人員離職時,總部和分部應及時通過OA 確認,刪除離職人員的相關賬號與信息。
g.妥善保管自己所知的密碼。
6.7服務器及系統變更
不得在服務器上使用帶有病毒和木馬的軟件、光盤和可移動存貯設備,使用上述設備前一定要先做好病毒檢測;不得利用服務器從事工作以外的事情,無工作需要不得擅自拆卸服務器零部件,嚴禁更換服務器配套設備。不得擅自刪除、移動、更改服務器數據;不得故意破壞服務器系統;不得擅自修改服務器系統時間。
使用空閑主機,對服務器系統補丁進行升級測試,運行平穩后,各服務器升級安裝補丁,彌補系統漏洞;為服務器系統做好病毒及木馬的實時監測,及時升級病毒庫。
管理員對管理員賬戶與口令嚴格保密、重要數據庫,網站,APP 等服務器由研發配合定期修改密碼,以保證系統安全,防止對系統的非法入侵。
任何無關人員不得擅自進入主機房,需要進入的須征得服務器管理人員同意。應注意保護機房內的設備和物品,未經允許的非管理人員不得擅自操作機房內設備。
嚴禁攜帶易燃易爆和強磁物品及其它與機房工作無關的物品進入機房,機房內嚴禁吸咽。除管理員外,任何人不得隨意改動服務器內系統及環境配置。
除系統管理員或授權參加系統管理的人員外,任何用戶不得以任何方式獲取(或企圖獲取)超級用戶權限。
6.8 配置管理
明確配置管理負責人。
建立配置文檔庫,對服務器、存儲、網絡、安全設備,操作系統、應用軟件、數據庫等進行管理。
定期對配置進行備份及文檔庫歸類。
及時檢查并定期審計,對發現的不一致情況及時糾正修改。
6.9 事件與問題管理
對運維事件的處理進行規范,對發生的所有事件,根據事件的影響程度和影響范圍評估事件處理優先級并及時處理。
對所有事件響應、處理、結束等過程進行跟蹤、監督及檢查。對問題進行分析、提出解決方案,通過變更管理審批后部署實施。
7.應急管理
7.1應急準備
明確網絡、系統等事件的應急指揮決策機制,負責網絡與系統事件的預防預警、應急處置、報告和調查處理工作。
網絡與系統應急管理應遵循“誰主管誰負責、誰運行誰負責”、“統一指揮、密
切協同;注重預防、減少風險;科學處置、及時報告;以人為本、公平優先”的原則。
應急準備應符合如下要求:
a)系統管理員、網絡管理員、安全管理員等關鍵崗位應熟練掌握應急預案,能有效處置相關事件;
b)在自身力量不足以滿足應急要求的情況下,應與相關供應商簽署服務保障協議。協議內容應包
括雙方聯系人、聯系方式、服務內容及范圍、應急處理方式等。應定期檢查和評估協議的執行情況,確保服務保障措施落實到位,確保在應急處置中相關單位能提供及時有效的技術支持;
c)應建立有效的應急通訊聯絡系統,確保信息暢通;
7.2應急處置
在發生網絡與系統事件后,迅速采取應急措施,盡快恢復信息系統正常運行,如有重要情況應及時上報。
暫時無法確定事件原因、責任和結論的,應先給出事件的初步分析判斷,并組織力量盡快查找原因,給出解決方法,采取整改措施。