第一篇:運維管理系統建設
ITIL提升中國電信運維管理系統建設
ZDNet CIO頻道 更新時間:2008-01-25 作者: 來源:CSDN 本文關鍵詞: 中國電信 ITIL 運維管理
運維管理是電信運營商主要的生產和管理活動之一。運維管理系統建設和運營的好壞直接影響到電信運營的整體成本、管理水平和服務水平。因此,近兩年來,各大電信運營商紛紛對現有的運維系統進行改造。
中國在電信領域的增長速度超過了其GDP增長的速度。正是電信快速的增長,推動了運維系統的發展。如何更有效地利用現有的資源,提高運營維護的工作效率,提高整體服務質量是目前各大運營商面臨的普遍問題。毫無疑問,中國電信在運營維護方面,也面臨相同的問題。建設新一代中國電信運維管理系統,成為解決目前運維管理問題的唯一方案。
根據我們長期在電信領域的實踐,下面的幾點經驗,值得我們在中國電信運維系統的建設中更加關注。
一、采用ITIL作為運維系統的方法論
IT基礎架構庫(ITIL-ITInfrastructureLibrary),被譽為IT服務管理的圣經,其中包含了總結國際大公司在IT服務管理中的經驗并得到證明的IT服務計劃和運營的最佳實踐框架。
ITIL已經為《財富》500強的一些企業所采用,并取得了預期的效果。加特納(Gartner)和國際數據集團(IDC)等世界權威研究機構的調查研究表明,企業通過在IT部門實施最佳服務管理實踐,將因重復呼叫、不當的變更等引起的延誤時間減少了79%,每年每個終端用戶平均節約800美元的成本,同時每項新服務推出的時間也縮短一半。
要成為國際一流的企業,就要吸取國際一流企業的成功管理經驗,借鑒其管理手段。因此,中國電信在運維管理系統的建設,也應確立ITIL在系統建設過程中的方法論地位,吸取ITIL中的成功經驗。
作為眾多國際大型企業成功實踐的積累,ITIL使我們找到了解決運維流程規范的方式和方法。可是,如何更好地運用ITIL這一經典的方法論呢?我們認為應該注意兩點:
1)ITIL是從實踐中得來的精髓,不是僵化的教條,應該結合實際情況去運用ITIL,建立更加適合中國電信的流程規范,而不是照抄照搬。
2)由于ITIL理論博大精深,不可能在短期內在企業中全面實施。應該根據實際情況,選取實施重點,逐步實施,逐步完善。
在中國電信運維系統建設中,應該深入理解ITIL的核心理念,結合電信運維的現狀,解決核心和關鍵問題,逐步實現對運維的科學管理。
二、ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵
理順工作流程、提高服務效率是新運維系統建設的主要內容之一。
在工作流程的制定過程中,容易陷入以下兩個極端。
1.盲目照搬流程。作為方法論的ITIL,本身含有大量的成功實踐框架。但是,正如前面所說的,ITIL是從實踐中得來的精髓,不是僵化的教條,盲目照搬,只能使得工作流程不切合實際,并流于形式,對系統的貫徹和執行產生不好的影響。
2.完全遵照現有流程,實現其電子化。雖然這樣更符合目前的工作習慣,可能容易為運維人員所接受,但是,仍然解決不了目前運維所存在的一些問題。例如,我們在項目實施中曾遇到“工單在部門之間的重派”的問題。在當前手工作業的工作模式中,各單位將不屬于本單位處理范圍的工單,或部門需要其他部門配合的工單,均提交給故障處理的負責人,由該負責人向其他單位進行轉派和重派。這種處理方式,主要便于手工作業條件下負責人及時了解項目處理狀況。在建立運維系統后,負責人可以通過運維系統隨時了解到故障的處理狀況,每次重派和轉派之前,對負責人的回復變成了一種無效的工作,大大降低了事件的處理效率。如果僅僅將目前的手工作業電子化,那么故障處理的效率仍然沒有得到有效的提高。
因此,將ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵。
三、樹立主動服務觀念
在現行的運維工作中,我們經常遇到這樣的情況:一方面是運維部門疲于應付各種突發事件,加班加點處理各種重復事件,工作繁重,身心疲憊;一方面是客戶代表不斷抱怨和投訴“技術人員服務水平太低”。二者不可調和的矛盾,是新運維系統要解決的重要問題。
傳統的運維方式給人的印象是:故障發生前,維護人員似乎無所事事;故障發生后,則是手忙腳亂。這就是被動服務給人們留下的印象,運維人員是在被動地等待故障的發生。在新的運維系統中,我們必須改變原有的運維方式,變被動服務為主動服務。
在主動服務模式下,運維人員主動地監控系統的變化,對日常工作及故障處理完成后主動進行問題分析,對系統的變更風險進行評估。在新系統中,可以通過種種技術措施,使得運維工作從被動服務轉移到主動服務,如:增加變更管理流程以防范變更風險。
在日常運維工作中,變更工作是在所難免的。例如,新的系統安全漏洞被公布,為了保證系統安全,就需要安全系統補丁,而這種變更給系統帶來的風險則是難以估計的。例如在安裝補丁后,有時會產生大量莫名其妙的問題。這么一個簡單的例子已經可以說明,如果沒有很好的風險防范手段,系統變更將給我們的日常運維工作帶來大量的問題,后果往往是難以想象的。在新系統中,我們可增加變更管理流程。在變更管理流程中,變更方案需提交變更經理,由變更經理組織由專家組成的變更顧問委員會(CAB)對變更進行風險評估,在評估通過后才能夠進入變更的實施過程。變更管理是防范變更風險的最好辦法。
當然,主動服務是一種理念,在這種理念下,我們可以定義更多的流程,如問題管理流程,對系統中存在的隱患問題進行挖掘,防患于未然。總之,我們應該樹立這樣一個理念,在各流程的定義中進行運用,主動地提早發現系統存在的風險和隱患,減少突發事件的發生。
四、從平臺到業務的全面管理
網絡管理是運維系統的組成部分。對系統的監控也是運維的主要業務之一。以往網管系統實現了對平臺的監控,可是在實際運維工作中,平臺往往只有少數的幾個系統管理員負責,大多數業務人員更多地是面對業務系統。對于業務的監控和管理,是業務人員更加關心的問題。因此,在網管系統中,應加入業務監控的內容。
需要注意的是,業務是建立在平臺的基礎之上的,而不是孤立存在的。因此,監控中,應強調業務監控與平臺監控密不可分的聯系,從業務的角度出發,建立平臺與業務的關聯關系。在故障發生時,應能夠即時描述對業務的影響程度,能夠描述故障的影響范圍。
例如:采集源的某臺交換機產生異常,除了可以看到交換機告警外,我們還應該能夠在業務拓撲圖中直觀看到,采集系統受到影響,同時采集、預處理、分揀等相關業務也不同程度受到影響。其影響程度,能夠通過不同的顏色直觀地展示出來。
只有這樣才能夠更加直觀而全面地反映系統的運行狀態,反映業務的運行情況。能夠幫助運維人員在故障發生時,快速修復關鍵部件,減少故障帶來的損失。
五、建立科學的激勵與監督機制
多年來,系統的使用和推廣問題成為系統能否得到良好運用的一個重要問題。
假設:我們制定了變更管理流程,但是,變更管理沒有被很好地執行,而只是流于形式,則風險的防范也只能是停留在理論上的空談。
在運維系統建設過程中,建立了一整套科學的考核制度,以激勵運維人員更有效地提高服務質量和服務水平,是至關重要的。
對運維人員的考核,并不能就管理論管理,應該從客戶服務的角度出發,以客戶滿意為前提,進行考核。例如,根據每個部門的服務水平,制定了服務時限。假設,某個用戶投訴,需要多個部門協同進行處理。在處理過程中,各部門互相推托,雖然工單在各部門的停留時間沒有超過部門承諾的時限,而整體處理時間已經超過了運營商對該用戶承諾的處理時間。為了杜絕這種現象的出現,我們應該從用戶的角度出發,進行各部門處理時間的分段計算。計算結果將反映在每月故障處理情況的統計報告中,而這些報告直接與各部門、各單位的績效考核掛鉤。
通過這樣的考核機制,形成對員工日常工作的科學評價,既調動了員工積極性,又提高了工作效率和服務質量。
第二篇:運維管理系統方案
運維管理系統方案
概述
伴隨著企事業網絡規模的不斷擴大,企事業服務器的增多,企事業管理的信息化,企事業網絡管理也變的越來越重要。一旦網絡、服務器、數據庫、各種應用出現問題,常常會給企事業造成很大的損失。怎樣能7x24小時檢測網絡系統的運行情況,避免各種故障的發生,改進傳統的網絡管理方式來適企事業信息化發展的需要?
因此,運維管理系統就有他的必要性。一個完備的運維管理系統能夠提供7x24小時檢測網絡、服務器、數據庫、各種應用系統,及時發現將要出現的問題,并通過短信、Email、聲音報告給運維管理人員。運維管理人員就可以及時排除故障,避免造成重大損失。
? ? ? ? ? ? ? ? 運維管理系統的功能:
故障發現與警報;
記錄日常運維日志信息; 服務器故障統計;
服務器軟硬件信息統計; 服務進程管理;
將數據信息存儲到數據庫,并使用圖形方式直觀的展示出來; 權限、密碼管理; 將數據生成報表。運維管理系統的特點: ? ? ? ? ? ? ? 郵件和短信實時故障報警;
B/S結構,能夠通過web對遠程服務器下達指令;
監控服務器和被監控服務器之間通過python socket來發送信息; 統計日常故障處理,以便下次出現同樣故障時能夠更快的解決問題; 實現自動化管理和自動化監控; 安全管理服務器性能; 操作流程統計與管理。
第三篇:系統運維管理-IT基礎設施運維管理規范
IT 基礎設施運維管理規范 文件編號:運維-002-V1.0
目錄
運維管理規范--------------4 1.目的------------------------4 2.適用范圍------------------4 3.規范性引用及參考-----4 4.本文術語,定義和縮略語---------------------------5 5.基本要求------------------6
5.1運維管理原則-----6 5.2制度和流程管理6 5.5供應商管理--------7 5.6督促檢查-----------7 6.運行維護------------------8
6.1日常操作及監控分析--------------------------8 6.2 數據與介質管理-8 6.3機房管理-----------9 6.4 網絡管理----------9 6.5 弱電管理---------10 6.6桌面維護----------10 6.7服務器及系統變更----------------------------11
6.8 配置管理---------12 6.9 事件與問題管理 12 7.應急管理-----------------12
7.1應急準備----------12 7.2應急處置----------13
運維管理規范
1.目的
為規范公司運維工作,使相關工作具有持續改善及相互協作性,同時加強計算機設備的管理及維護,確保維修工作的及時性,降低計算機設備的報修率,實現業務與技術的融合,將業務部門與IT 部門緊密結合在一起,根據公司管理要求及計算機應用的需要,由運維部制定。
2.適用范圍
本規范規定了運維管理工作的要求。
本規范適用于維信理財集團(中國)總部,包括全國各分部及門店。
3.規范性引用及參考
◆ IT 服務管理國際標準ISO/IEC 20000 ◆ 企業獲得ISO/IEC 20000認證的權威指南 ◆ 全球著名IT 服務管理書庫(ITSM Library)◆ IT 服務質量管理原則
◆ 理解ISO/IEC 20000在IT 服務中的地位 ◆ ISO/IEC 20000規范和實踐準則 ◆ IT 服務管理國際標準ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技術 信息系統安全管理要求
◆ ISO 31000:2009 風險管理 原則和指南(Risk management--Principles and guidelines)
◆ JR-T 0060—2010 金融信息系統安全等級保護基本要求 ◆ JR/T 0074-2012 金融IT 服務管理基本規范 ◆ 中國金融標準化報告(2011)
4.本文術語,定義和縮略語
1、IT: Information Technology 信息技術
2、DNS: Domain Name Service 域名服務
3、DHCP: Dynamic Host Configuration Protocol 動態主機配置協議
4、VPN: Virtual Private Network 虛擬專用網
5、OA: Office Automation 辦公自動化系統
6、ISO: International Organization for Standardization 國際標準化組織 編訂日期:30.7.2014 批準日期: 生效日期:
7、故障: IT設備或系統喪失規定的功能,導致服務中斷或降質,或對正常運行造成潛在威脅。
8、異常: IT設備或系統的狀態發生超出預期的變化或性能指標參數超出正常范圍,有可能引發或已經引發故障,需要引起運維人員關注或處理。
9、資料: IT設備或系統的運行記錄,包括IT 設備或系統的配置、故障歷史記錄、軟硬件擴容或調整記錄、權限變更申請記錄等。
10、運行維護:本規范中的運行維護包括IT 基礎設施維護、IT 應用系統運維維護、安全管理、網絡接入、內容信息以及綜合管理等。
5.基本要求
5.1運維管理原則
公司按集中與分散相結合的原則,設立機房、各部門配備電腦。計算機系統本著“總體規劃、分步建設”的方式實施建立。
計算機系統建設應綜合考慮成本、費用、效率、效果、先進性及適用性,選擇最優技術、經濟方案。
5.2制度和流程管理
運維管理制度應包括但不限于機房管理、網絡與系統管理、數據和介質管理、配置管理、安全管理、監控管理、文檔管理、設備和軟件管理、供應商管理等制度。
運維操作流程應包括但不限于日常操作、事件處理、問題處理、系統變更、應急處置等流程。
5.3 文檔管理
對運維過程中涉及的各類文檔進行管理,可按照制度文檔、技術文檔、合同文檔、審批記錄、日志記錄等進行分類,并妥善保存。5.3.2 對文檔的版本應當進行控制。
文檔在使用時應能讀取、使用較新版本,防止作廢文件的逾期使用。
5.4設備和軟件管理
建立計算機相關設備和軟件管理制度,對設備和軟件的使用、安裝、維修(升級)等進行規范。明確設備和軟件管理責任人。對設備進行標識,標識應放在設備明顯位置。
規定設備和軟件的使用年限,定期進行盤點,并對設備狀態進行評估和更新。
對外送設備的維修進行嚴格管理,防止數據泄露。
對擬下線和擬報廢設備的存儲介質中的全部信息進行清除或銷毀。對正式下線設備和軟件交指定部門統一管理、保存或處置,并保留相應記錄。設備和軟件報廢應符合公司現行資產管理規定。
5.5供應商管理
對供應商支持運維服務的相關活動進行統一管理。
在與供應商簽訂的合同中明確其應承擔的責任、義務,并約定服務要求和范圍等內容。
應定期收集、更新供應商信息,組織對供應商的服務質量、履約情況、人員工作情況等內容進行評價,并跟蹤和記錄供應商改進情況。加強運維外包服務管理,主要包括:
a)明確外包公司應當承擔的責任及追究方式;
b)明確界定外包人員的工作職責、活動范圍、操作權限; c)對外包人員工作情況進行監督和檢查,并留存相應記錄; d)對駐場外包人員的入場和離場進行管理; e)定期評估外包的服務質量; f)制定外包服務意外終止的應急措施。
5.6督促檢查
定期檢查審計,對運維制度的執行情況和運維工作開展情況定期進行檢查和審計,以督促運維工作持續改進。
指定人員負責對日常操作執行情況進行檢查,確保運維管理制度和操作流程的有效執行。對檢查和審計結果采取糾正、預防措施。
6.運行維護
6.1日常操作及監控分析
未經許可,任何人不得隨便使用電腦及相關設備。不得更換電腦硬件和軟件,拒絕使用來歷不明的軟件和移動設備。
電腦發生故障時,使用者作簡易處理仍不能排除的,應立即報告IT,非專業管理人員不得擅自拆開機箱或調換設備配件。
計算機及其相關設備的報廢需經過IT 部門或專職人員鑒定,確認不符合使用要求后方可申請報廢。
運維應采取各種監控措施,配備視頻、語音、系統監控和報警工具,對影響信息系統正常運行的關鍵對象,包括機房環境、網絡、通信線路、主機、存儲、數據庫、核心交易業務相關的應用系統、安全設備等進行監控。
主要監控指標具體如下:
a)機房:電力狀態、空調運行狀態、消防設施狀態、溫濕度、漏水、人員及設備進出等;
b)網絡與通信:設備運行狀態、中央處理器使用率、通信連接狀態、網絡流量、核心節點間網絡
延時、丟包率等;
c)主機:設備運行狀態、中央處理器使用率、內存利用率、磁盤空間利用率、通信端口狀態等;
d)存儲:設備運行狀態、數據交換延時、存儲電池狀態等;
e)安全設備:設備運行狀態、中央處理器使用率、內存利用率、端口狀態、數據流量、并發連接數、安全事件記錄情況等;
6.2 數據與介質管理
配合數據應用部,對核心業務數據進行周備份,并每季度進行恢復性測試。
對設備和人員出入進行管理。進入機房應限制和監控其活動范圍,并有專人陪同;未經批準不得接入生產環境。
6.3機房管理
對機房環境、供電、空調、消防、安防等基礎設施的運行維護、設備和人員出入、機房工作人員等進行規范管理。
應指定機房管理負責人。確保機房環境整潔和安全,包括:
a)應定期檢查防水、防雷、防火、防潮、防塵、防鼠、防靜電等措施的有效性;
b)應保持機房環境衛生,設備擺放合理,歸類; c)不得隨意出入機房。
d)未經審批不得接入其它用電設備。
6.4 網絡管理
確保網絡、系統的正常運行。網絡管理應包括: a)繪制網絡拓撲圖,并保持更新;
b)應保持網絡設備的可用性,及時維修、更換故障設備; c)應負責網絡系統的參數配置、調優; d)應定期對系統容量進行檢查和評估;
e)應定期檢查網絡設備的用戶、口令及權限設置的正確性;
f)應定期對整個網絡連接進行檢查,確保所有交換機端口處于受控狀態; g)應對網絡信息點進行管理,編制信息點使用表,并及時維護和更新,確保與實際情況一致。計
算機網絡跳線應整齊干凈,跳線標識清晰;
h)應制定網絡訪問控制策略,應合理設置網絡隔離設施上的訪問控制列表,關閉與業務無關的端口;編制文檔并保持更新;訪問控制策略的變更應履行審批手續。
權限管理應包括如下要求:
a)權限分配應履行審批手續,權限設置后應復核; b)應按照最小安全訪問原則分配用戶權限; c)應在用戶賬戶變化時,同時變更或撤銷其權限; d)應定期檢查權限設置的有效性。
6.5 弱電管理
嚴格按圖紙施工,在保證系統功能質量的前提下,提高工藝標準要求,確保施工質量。質量檢查制度,現場管理人員將定期進行質量檢查并貫穿到整個施工過程中。統運行驗收:當設備安裝完畢并調試運行無誤后,由公司派現場調試人員進行系統聯調,并向上級匯報調試結果。運維對弱電設備的綜合管理,包括技術資料、檔案的收集。同時,每月一次對弱電設備運行狀況進行檢查,并及時處理匯報問題。
6.6桌面維護
日常數據注意事項:
a.個人文件(Excel、Word、PDF 等)建議員工不要存放在系統盤(通常為C 盤),可以存放在其它盤符。
b.工程師可通過多種方式或途徑來告知員工如何進行日常文件的備份,如:口述、郵件、培訓等。
c.未經許可,禁止使用U 盤,移動硬盤,手機或其它外設,如:網盤、郵箱等,盜取公司內部文件。
重裝系統前注意事項:
a.詢問用戶有哪些相關數據需要備份,如桌面、我的文檔、收藏夾、郵件等。b.用戶Email 的備份:如客戶端為Outlook 則導出相關OST 或PST 文件;硬件損壞需更換或維修時,運維人員進行測試,明確是否真實異常,不可隨意更換。
關于賬號、權限、密碼
a.必須嚴格按照公司制定的IT 策略進行管理,不可私自制定規范。b.禁止私自把個人管理員權限借給他人或告知他人。
c.禁止為他人開設規定以外的權限,如:本地管理員、其他部門目錄訪問權限、上網權限、電話權限等。
d.更改任何類型用戶權限時需得到相關審批層級確認才可執行。e.如電腦無特殊應用需求,則一律為“user”普通權限。
f.人員離職時,總部和分部應及時通過OA 確認,刪除離職人員的相關賬號與信息。
g.妥善保管自己所知的密碼。
6.7服務器及系統變更
不得在服務器上使用帶有病毒和木馬的軟件、光盤和可移動存貯設備,使用上述設備前一定要先做好病毒檢測;不得利用服務器從事工作以外的事情,無工作需要不得擅自拆卸服務器零部件,嚴禁更換服務器配套設備。不得擅自刪除、移動、更改服務器數據;不得故意破壞服務器系統;不得擅自修改服務器系統時間。
使用空閑主機,對服務器系統補丁進行升級測試,運行平穩后,各服務器升級安裝補丁,彌補系統漏洞;為服務器系統做好病毒及木馬的實時監測,及時升級病毒庫。
管理員對管理員賬戶與口令嚴格保密、重要數據庫,網站,APP 等服務器由研發配合定期修改密碼,以保證系統安全,防止對系統的非法入侵。
任何無關人員不得擅自進入主機房,需要進入的須征得服務器管理人員同意。應注意保護機房內的設備和物品,未經允許的非管理人員不得擅自操作機房內設備。
嚴禁攜帶易燃易爆和強磁物品及其它與機房工作無關的物品進入機房,機房內嚴禁吸咽。除管理員外,任何人不得隨意改動服務器內系統及環境配置。
除系統管理員或授權參加系統管理的人員外,任何用戶不得以任何方式獲取(或企圖獲取)超級用戶權限。
6.8 配置管理
明確配置管理負責人。
建立配置文檔庫,對服務器、存儲、網絡、安全設備,操作系統、應用軟件、數據庫等進行管理。
定期對配置進行備份及文檔庫歸類。
及時檢查并定期審計,對發現的不一致情況及時糾正修改。
6.9 事件與問題管理
對運維事件的處理進行規范,對發生的所有事件,根據事件的影響程度和影響范圍評估事件處理優先級并及時處理。
對所有事件響應、處理、結束等過程進行跟蹤、監督及檢查。對問題進行分析、提出解決方案,通過變更管理審批后部署實施。
7.應急管理
7.1應急準備
明確網絡、系統等事件的應急指揮決策機制,負責網絡與系統事件的預防預警、應急處置、報告和調查處理工作。
網絡與系統應急管理應遵循“誰主管誰負責、誰運行誰負責”、“統一指揮、密
切協同;注重預防、減少風險;科學處置、及時報告;以人為本、公平優先”的原則。
應急準備應符合如下要求:
a)系統管理員、網絡管理員、安全管理員等關鍵崗位應熟練掌握應急預案,能有效處置相關事件;
b)在自身力量不足以滿足應急要求的情況下,應與相關供應商簽署服務保障協議。協議內容應包
括雙方聯系人、聯系方式、服務內容及范圍、應急處理方式等。應定期檢查和評估協議的執行情況,確保服務保障措施落實到位,確保在應急處置中相關單位能提供及時有效的技術支持;
c)應建立有效的應急通訊聯絡系統,確保信息暢通;
7.2應急處置
在發生網絡與系統事件后,迅速采取應急措施,盡快恢復信息系統正常運行,如有重要情況應及時上報。
暫時無法確定事件原因、責任和結論的,應先給出事件的初步分析判斷,并組織力量盡快查找原因,給出解決方法,采取整改措施。
第四篇:IT運維管理系統規劃
IT運維管理系統規劃
MIS網絡信息運維管理系統規劃(征求意見稿)作者:張鵬 二〇一〇年一月 前言
托電信息化發展歷經八年,從只有一個OA辦公系統、數十臺終端到如今擁有包括小型機在內的服務器五十余臺、交換機等網絡設備百余臺、終端上千臺。信息化工作的重點已經從信息系統建設向運維管理和系統應用的深度整合等轉移。
目前,信息中心每天的工作量,多數都屬于運維管理的范疇。信息中心從機組四期工程結束后就著手開始運維管理方面的建設工作,幾年間相繼上了藍帶思科桌面管理系統、東華的IT運維系統、青鳥桌面管理系統。這些系統的應用情況都不盡如人意,原因是多方面的,個人認為主要有以下幾點:
1.運維管理的理念形成需要逐步成熟的過程。2.受到與運維相關的信息技術發展制約。3.現有運維相關的產品有各自的側重或局限性。
信息中心正在實施的兩個項目NETIQ和機房環境監測系統為我們提供了一個契機,我們可以建設一個真正適合自己的網絡運維管理系統,這個時機已經基本成熟。
一、運維管理系統建設的可行性
信息中心運維工作主要來自網絡設備、系統應用、機房設備、終端。NETIQ服務器監控系統可以對服務器、數據庫進行集中監控管理。機房環境監測系統可以對機房溫濕度、空調、UPS等指標進行集中監控管理。終端管理方面,可以考慮購置更好的產品加上二次開發或者在現有桌面管理系統的基礎上進行二次開發。相對于以上,網絡設備的管理使用SNMP基本可以滿足運維需求,NETIQ可以實現,也可以在運維管理中心開發相應的管理模塊。這些系統的建設,本身就是具有針對性的綜合管理系統,而且可以為運維管理中心系統提供運維信息的采集平臺,是運維管理系統建設的基礎。
二、運維管理系統的構想
運維管理系統由外圍管理系統群和運維管理中心兩部分組成。外圍管理系統群包括網絡設備管理模塊、NETIQ系統、機房環境監測系統、終端管理系統,外圍系統群為運維管理中心提供運維信息采集平臺。運維信息采集包括網絡設備運維信息采集、服務器組運維信息采集、機房環境運維信息采集、終端運維信息采集。
運維管理中心主要包括以下幾個部分:運維任務的生成、運維任務的處理、完成確認、知識庫、運維統計分析、運維報告、績效評價、違規處理、維護商管理、應急預案管理、系統權限等。㈠生成運維任務
運維任務的生成有兩個途徑,一個是從信息采集獲得,另外可以手動生成。運維任務分為運行管理任務和維護管理任務兩類,運行任務管理是指系統、設備在正常運行狀態下的監控管理或操作,主要包括定期巡檢任務、正常的配置操作、補丁管理、用戶管理、升級操作等,巡檢任務由系統按規定自動生成,包括信息中心人員的日常巡檢和維護商的定期巡檢。維護管理任務是指當設備、系統出現異常或故障時的處理過程。運維任務的生成包括的信息有:設備或系統名稱、IP地址、報警信息、時間、運維編碼等等,由終端直接發起的運維信息應該包含聯系人的電話等,以便于運維人員接手任務后與發起人主動取得聯系。生成的運維任務包括網絡設備、應用系統、機房操作、終端運維等幾種任務。運行管理和維護管理并沒有嚴格的界限,往往是你中有我我中有你。㈡運維任務的處理
運維任務生成后,由管理人員按照各自的職責分工,領取相應的運維任務進行處理,運維任務處理過程及信息分類:
運維類別 網絡設備包括:交換機、路由器、防火墻、VPN設備、行為管理設備、其他 應用系統包括:操作系統、應用服務、數據庫、接口、其他
機房運維包括服務器、網絡設備、空調系統、供電系統、消防系統、環境監控系統 終端運維包括:終端、外設 運維內容
網絡設備包括配置操作:增加、更改、刪除,其他操作:版本升級、設備更換、其他 應用系統包括:配置變更、軟件安裝、升級、用戶管理、數據管理、日志管理、補丁管理、策略管理、其他
機房運維包括具體的設備信息
終端運維包括:電腦硬件、操作系統、應用程序、打印機、其他 處理過程
處理結果
原因分析 影響情況 對用戶的影響情況(時間范圍)
運維任務在處理過程中包含以下幾個狀態,分別是: 等待處理: 等待運維人員接手 執行狀態:運維人員正在處理任務
掛起狀態:運維過程中出現其他急需辦理的事物或其他原因暫停執行 提交狀態:任務處理完畢,等待完成確認 完成狀態:一個任務完全結束后的狀態
駁回狀態:任務處理過程中信息有待補充等原因被駁回。
當任務處理人員發現需要維護商來處理的時候,將任務轉給維護商,由維護商接手任務,相關人員配合共同完成運維任務并填寫相應的記錄,最后由運維人員給予維護商相應的評價。㈢運維任務的完成確認
對已經完成并提交的運維任務進行確認、評價,對于運維內容是否放入知識庫給予確認,對于運維過程中存在的違規情況根據相關規定給予處罰確定等。㈣知識庫
知識庫的信息積累來自于運維管理系統和平時的手工錄入,應做好信息的分類、查詢功能。當運維任務生成后,系統會把相關的信息在知識庫中進行檢索,并把結果顯示在任務中,供運維人員參考。㈤運維統計分析
當某些問題經常出現的時候,信息中心必須運用統計分析對設備、系統產生的問題或故障協同相關維護商,進行深入分析,找出原因,解決問題。另外運用統計分析可以為今后的運維工作提供指導方向,制定下一步運維計劃。㈥運維報告
通過運維管理中心,對運維數據有選擇的篩選、匯總,定期生成信息系統運維報告,以便于工作總結、分析、計劃。運維報告應具有針對性,例如呈送公司領導的、呈送各部門的以及信息中心的整體報告。㈦績效評價
運維系統內的各方包括終端用戶、維護商、運維人員都是可以評價的對象。終端用戶可以給打印機維護商評價;也可以給信息中心運維人員給予評價;維護商可以給維護人員評價;運維人員可以給維護商的工作給予評價;運維人員可以對終端用戶使用計算機的情況給予評價。㈧違規處理 對于運維過程中發現違反信息系統相關制度的行為應予以必要的處理。需要做兩方面工作:涉及這個內容的制度條款應該拿到系統中來,處理的方式方法有待確定;對于違規行為,在運維處理過程中應該做相應的證據記錄。㈨維護商的管理
對維護商的信息集中管理,運維工作予以記錄、評價,運維合同的到期提醒等,如何對維護商產生實際的約束力,發揮其在運維工作中應有的作用,是我們需要考慮的問題。
(十)應急預案管理
當設備或系統的故障達到規定程度時,啟動應急預案,并對整個處理過程實現系統化管理,以及預案的演練等其他工作進行記錄。
三、終端管理系統
目前通行的終端管理系統所包含的功能主要有:硬件信息的提取(CPU、內存、硬盤等)、操作系統基本信息(操作系統版本、安裝的應用程序等)、軟件分發、補丁管理、外設管理、遠程管理、主機防護等。有的產品還具有接入認證、內外網隔離、硬盤加密、網絡行為管理等功能。360安全套件在終端健康狀況、插件管理、實時防護、木馬查殺、垃圾清理等方面做的比較好。瑞星網絡版則是著重防病毒。將這些軟件的功能加以綜合利用,建設終端管理系統平臺(組),為運維管理中心提供數據。
廠區終端使用最多的是OFFICE辦公軟件和瀏覽器,出現問題最多的是瀏覽器,所以應當把對瀏覽器的運維作為終端運維的重點之一。此外終端管理系統收集的終端硬件信息可以與信息中心現有的資產管理系統建立聯系,可以實現較為準確的資產定位,協同各部門信息員及時掌握資產的變動情況。
客戶端的二次開發要求:客戶端既屬于終端管理系統,又可以和運維管理中心通信,同時可以對于我們所需的現有產品沒有涉及到的進程或指標進行檢測。
1、實時交互性
當運維人員需要遠程維護時與終端用戶進行詢問、控制申請等信息交互,當運維任務結束后,終端用戶可以給維護人員以相應的評價。運維管理中心收集到的終端健康情況也可以發送到目的終端,給使用者以相關的提醒。
2、人性化
終端使用人提交運維申請后,可以看到運維管理中心當前的運維狀況,誰接手了自己提交的申請,自己排在第幾位等信息。客戶端運行應盡量避免對終端用戶的正常工作形成干擾,如果能做到讓使用者感覺很舒服又實用那是最好了。
3、資源占用率 客戶端運行時,進程的大小,CPU占用率可以參考較為成熟的軟件如360及瑞星運行時的情況。
4、定制化安裝
對于信息中心維護范圍內和維護范圍外的終端,應該采取不同的安裝策略。比如對維護范圍外采用接入認證、監控健康狀態、信息提醒等,但不啟用維護功能。用戶在安裝客戶端時,填寫相應的信息以便系統管理。
四、運維系統建設工作重點 1.運維管理中心的開發 2.終端管理系統的建設
3.NETIQ系統所涉及監測指標的調整,與運維管理中心的接口準備 4.機房環境監測系統所涉及監測指標的調整,與運維管理中心的接口準備
5.對于特定應用系統的運行監測,NETIQ能否開發出對應的監測服務模塊,或者應用系統的開發商可以開發出對自身運行狀況的監測功能。6.與運維工作相關制度的完善、建立。
五、總結
綜上所述,運維管理系統由多個子系統組成,我們應該看到它的復雜性。如何讓整個系統協調運作,如何挖掘、調整、發揮運維系統的功能,提高運維工作效率,不是一朝一夕的事情。運維管理系統體現的是管理理念,相關制度的落實是整個運維工作做的好壞的關鍵,也是運維管理系統成功的關鍵。
第五篇:電子運維管理系統
電子運維管理系統(MetarOSS EOMS)
引言
經過多年建設,國內各運營商向公眾提供越來越多的通信業務,用戶數和業務量都逐年大幅增長。但隨著國內電信運營市場的不斷開放,市場競爭日趨激烈,如何在運營商內部建立起一套有效的運維交互平臺,理順不同部門以及上下級之間的協作關系,規范工作流程,提高工作效率,實現故障處理、資源調度優化、系統割接、業務保障等運維工作的閉環流程監控和管理,是目前各運營商都比較關心的問題。
一、綜述
北京市天元網絡技術股份有限公司自主研發的電子運維管理系統(MetarOSS EOMS)定位于通過電子化手段來確保運維工作的流程化、工單化、自動化和信息化,實現對流程的實時監控與閉環管理,并能夠與其它相關支撐系統進行交互與融合,體現本系統在整個運維支撐體系中的樞紐價值。本系統還能夠為用戶的日常維護操作提供平臺并且自動記錄用戶的操作信息,為運維經驗的積累以及員工考核提供支持。
圖 1 電子運維管理系統應用示意
二、系統架構 功能結構
電子運維管理系統采用分層結構設計,系統從上到下分為業務應用層、核心服務層、數據存儲層三層,其中數據存儲層、核心服務層都向業務應用層提供公共服務,應用層模塊可以根據具體用戶的需求進行功能擴展和客戶化開發。
圖 2 系統軟件結構 物理結構
下圖是系統的物理結構,可以根據實際需求考慮將各種應用部署到一臺或多臺服務器設備中。
圖 3 系統物理結構 與其他系統的接口
MetarOSS EOMS不是一個孤立的系統,它與其它各相關系統通過接口進行互連,MetarOSS EOMS本身支持標準的CORBA、XML等接口協議與其他系統實現互聯,也可支持采用私有接口協議與其他系統互聯。
三、系統功能
MetarOSS EOMS系統功能應用基于WEB實現,提供豐富的業務功能和強大的管理功能,為全面提升運營維護服務質量水平提供有力支撐。? 信息門戶
電子運維管理系統提供了一套信息門戶平臺,可以呈現各類發布信息。同時提供個人工作室功能,不同用戶可根據日常使用各項功能的頻次自行定義工作桌面,為操作者迅速進入各項功能模塊提供快捷手段。
-個人桌面管理已處理事宜工作計劃及總結任務管理局數據核查流程通道調度流程生產任務流程計劃的建立、查詢和審核基于模板的作業計劃制定作業計劃執行情況考核代維合同管理
-代維公司、代維隊、代維人員管理代維記錄代維問題跟蹤資料管理:運用電子化手段對包括備品備件、各專業日常操作維護資料、運維人員資料、相關部門資料等信息進行添加、修改、刪除、分類、歸檔、查看等操作。
圖 13 備品備件管理
? 安全管理
-多用戶、分級別、分權限設置用戶操作日志
-用戶數量、登錄位置、密碼等安全限制 ? 系統自身管理
-硬件系統監控數據庫系統監控
四、運行環境
MetarOSS EOMS 所需的最低運行環境要求需要根據系統設計訪問的用戶數以及系統并發訪問率進行靈活配置,本處給出滿足系統運行最低配置需要。
? 硬件配置
? 采用UNIX服務器工作站或者Windows Server工作站 ? 機器自帶或另外配置100M以太網網卡 ? 終端配置
? Windows PC(當前主流配置)? 軟件配置
? Tomcat WEB服務器
? 系統數據庫(Sybase/Informix/Oracle或者其他數據庫)? MetarPlat DPP運行版 V2.0
五、系統特點
? 系統采用“平臺+應用”的方式進行實施,即系統采用通用型的電子運維平臺,提供各種通用功能,系統上層應用功能可以根據用戶的需求進行靈活定制,實現對傳輸網、交換網、移動網、數據網的綜合運維管理; ? 采用符合WFMC的工作流引擎,支持工單流程的自定義,方便配置成適合特定用戶需求的流程管理平臺; ? 提供電子化工作流程和工作人員的考核依據,實現運維工作管理的科學化、規范化和自動化; ? 界面美觀、操作方便,支持與短信平臺、Email、PDA等系統的對接;
? 安全性好,通過防火墻等硬件設備和系統監控、權限分配、SSL協議等軟件配置實現系統的整體安全; ? 擴展性好,預留與其它應用系統的接口,為與未來系統的互連創造了條件。
六、成功案例
? 中國聯通總部級綜合電子運維管理系統
? 中國聯通省級綜合電子運維管理系統(8個項目)-江蘇、山東、重慶、安徽、云南、山西、江西、青海 ? 公安部通信網運維流程管理系統 ? 國電通信中心T-MIS管理系統 ? 青海電力通信網流程管理系統 ? 遼寧電力通信網流程管理系統