第一篇:醫院IT運維管理系統的建設
醫院IT運維管理系統的建設
[導讀]隨著醫院信息化建設的高速發展,醫院IT信息基礎設施也變得更加復雜,越來越多的臨床業務應用運行于計算機和網絡,現代醫院對IT信息系統的依賴也越來越強,系統的可用行和穩定性,數據的完整性和可靠性以及整個網絡系統的安全性已經成為每位醫院領導和信息科負責人須要考慮和解決的問題。
標簽:IT運維醫院IT
隨著醫院信息化建設的高速發展,醫院IT信息基礎設施也變得更加復雜,越來越多的臨床業務應用運行于計算機和網絡,現代醫院對IT信息系統的依賴也越來越強,系統的可用行和穩定性,數據的完整性和可靠性以及整個網絡系統的安全性已經成為每位醫院領導和信息科負責人須要考慮和解決的問題。面對日益龐大的醫院IT規模,信息科在日常的網絡管理和運行維護中面臨許多問題和挑戰。為保證IT系統能7x24h不間斷地高效運行,必須建立一套全面且高效的IT運維管理系統。1.醫院lT運維管理系統建設的必要性
在日常的醫院IT系統使用過程中,各臨床業務部門總會提出這樣的抱怨:①IT系統出現故障了,打電話到信息科找不到人,怎么辦?②信息科什么時候才能幫我們解決好問題,還要等多長時間?③誰能告訴我,我的問題現在處于什么狀態?而信息科的系統維護人員會有這樣的煩惱:①要處理這么多繁瑣的工作,我已經焦頭爛額了,怎么辦?②怎樣才能使工作更有效率,怎樣才能使臨床業務部門滿意我的服務?③遇到問題時沒有相關的解決方案可以參考。誰能幫幫我?同時,信息科的主管領導或科長也有這樣的困惑:①如何獲取有效的數據來衡量信息科內維護人員的工作量及服務態度?②怎樣對信息科內的維護人員進行合理分工?③如何提高或改進服務質量?④如何清晰了解故障發生的頻率,怎樣進行問題匯總和服務跟蹤?⑤怎樣形成有效的知識積累,如何擺脫對“關鍵人物”的過分依賴等。
綜上所述,針對沒有建立與臨床業務部門有效溝通機制和手段的問題。應建立統一的服務Portal窗口,作為信息科與臨床業務部門之間的唯一聯系點。針對信息科主管無法清楚了解醫院內IT運維全貌和全程控制IT服務各流程的問題,應建立一套規范化的ITIL服務流程,從事件、問題、變更、發布、配置等規范流程。針對信息科系統維護人員需要從“救火隊員”轉換為“保健醫生”的需求,可將信息科內維護人員按擁有技能進行分類,建立標準、規范的服務流程,同時建立完善的知識庫系統在信息科內維護人員間共享知識。為了有效解決以上的種種抱怨、煩惱和困惑,建設統一、高效的IT運維管理系統顯得尤其重要和迫切。
2.醫院IT運維管理系統體系結構
根據IT運維管理平臺的建設需求,整個醫院IT運維管理系統平臺從功能結構上分為3層結構。①數據采集層:主要完成對網絡、主機、存儲、備份、數據庫、中間件等IT基礎設施的數據采集功能。對于告警、性能、配置數據,使用采集適配器,通過被管理對象提供的各類采集手段或接口實現對需要監控數據的采集。采集程序通過記錄采集斷點的信息來完成對數據的補采或重采的功能,以保證數據采集的完整性。②數據處理層:主要是通過接收數據采集層生成的指標數據(或原始數據),并對這些指標進行統一的存儲、處理與分析,將處理結果直接上傳接入應用展現層,通過拓撲圖、告警界面、報表系統等統一展示。數據處理層的主要功能包括3個部分:告警數據處理、性能數據處理和配置數據處理。③應用展現層:主要由故障監控、拓撲視圖、報表展現、服務臺等組成。通過故障監控功能提供分類、分級別的事件、告警信息列表,幫助維護人員一目了然地了解系統的運行狀況,同維護人員能夠通過告警確認、告警清除、派發工單等功能對告警信息進行各種操作。通過拓撲視圖功能,利用圖形化的方式,從多種角度展現各平臺系統的設備構成,通過直觀的方式反映系統運行狀態,維護人員能夠方便地查看各種監控管理數據。通過靈活的報表模板的定制,可以對系統需要監控管理的告警信息、性能信息和配置信息進行各種形式的報表呈現,并提供統一的個人工作臺界面,實現日常維護、管理工作的電子化,主要包括事件管理、問題管理、變更管理、配置管理、知識庫管理等功能,系統體系結構見圖1。
圖1 IT運維管理系統體系結構圖
3.醫院IT運維管理系統的主要功能構思
醫院IT運管理管理系統可分為監控和服務管理系統兩大部分,設計構思如下。3.1 監控管理系統
監控管理系統包括對網絡設備、網絡流量、主機系統、數據庫、中間件、存儲、備份、業務系統、安全管理等IT基礎設施的故障、性能和配置信息進行監控和管理,主要功能包括以下幾個方面。①網絡設備管理:主要對路由器、交換機、防火墻等網絡設備進行監控和管理,需要實現網絡拓撲管理、網絡性能管理、網絡配置管理、網絡故障管理等功能。當監控對象出現故障的時候,通過顏色變化和預先設置好的告警規則通過有效的方式通知信息科維護人員。②服務器管理:利用服務器管理系統可以對服務器的運行狀況進行監控。使維護人員及時了解服務器的重要資源和參數運行狀況,出現故障時迅速報警,并可自動采取措施排除故障,保證關鍵服務器的可用性和可靠性。③數據庫及應用管理:可以實現對數據庫的性能和故障的管理,通過網絡管理系統實現告警通知功能,比如數據庫內存、IO性能、鎖、表空間、日志、數據擴展情況、表訪問頻率等主要運行參數的監控,SQL語句的跟蹤,數據庫性能的分析等。從而保障應用系統正常運作,確保臨床業務系統穩定可靠。④業務系統管理:能夠根據業務關系組織業務拓撲圖,在IT組件發生故障時。可以立即析由于IT組件的故障對整個業務系統的影響,快速定位到服務故障的核心根源,提高系統維護人員的工作效率,減少服務停頓時問,提高臨床業務部門對信息科的滿意度。⑤機房監控管理:實時監控機房環境的狀態和故障,監測機房環境的各項指標,遇到機房停電、電源故障、環境溫度過高、非法闖入、網絡故障、服務器故障等緊急意外情況,能夠及H寸記錄和自動快速報警。3.2 服務管理系統
實現IT服務管理流程相關的支持功能,包括事件、問題、變更、配置管理和知識庫管理等,主要功能如下。①服務臺:是醫院信息部門與各臨床業務部門之間的服務平臺,起著紐帶的作用。信息科可以利用它處理很多臨床業務部門用戶的詢問和請求,并及時向其傳遞有關請求服務處理情況:系統使用部門用戶在碰到任何問題時,只需聯系服務臺,然后再由服務臺協調信息科做下一步的工作,從而實現單點聯系,對事件處理的生命周期進行監控,提高事件的處理效率和臨床科室的滿意度。②事件管理:事件管理流程是一個被動的處理流程,受事件觸發和驅動,負責快速恢復服務,以解決事件表征現象,重點不在于找到事件的根本原因。醫院IT運維管理系統事件管理流程的目的是在成本允許的范圍內盡快恢復服務。事件管理范圍包括IT生產環境中的應用系統及相關的所有IT基礎設施所產生的故障、服務請求及申述。③問題管理:盡量減少服務基礎架構、人為錯誤和外部事件等缺陷或過失對臨床業務部門造成影響,并防止它們重復發生的過程。④變更管理:是對變更進行控制的流程,它對變更請求進行記錄、跟蹤與管理,消除或減少IT變更對業務環境和系統的影響和風險,保證變更的平穩運行,其目的是保證變更在受控方式下正確評估,批準和實施。減少和杜絕非授權變更,降低變更風險和對業務的影響。⑧配置管理:是IT基礎架構組成部分的文檔化描述(如狀態,關系等),并包括配置元素(CI)相關的文檔資料。它制訂、跟蹤和匯報相關信息,確保其他流程的更有效運行,特別是變更管理、事件管理和問題管理等流程。⑥庫存管理:實現對設備的入庫和出庫的管理。⑦值班管理:實現統一的電子化值班管理,規范信息科人員值班管理制度。⑧任務計劃:具有多樣化的任務類型選擇,系統巡檢、提供靈活的提醒機制、記錄任務計劃的執行情況、輔助變更管理和發布管理中的任務規劃。⑨績效管理:依據服務水平協議內容,綜合服務成本因素,將服務管理各流程的執行過程進行分解量化,實現服務支持人員工作的計量與統計,并對其進行考評。⑩分析報表:提供了大量的基礎報表和統計分析報表。系統管理:實現角色管理、權限管理、人員管理、基礎信息配置等功能。知識庫管理:通過知識庫管理模塊,可以建立“內容目錄”。醫院信息科維護人員可以通過知識庫尋找故障的解決方案:知識庫管理模塊也允許維護人員持續不斷更新資料以確保準確即時的信息。4.預期收益
在醫院IT運維管理系統完全投入使用后,將會給醫院帶來以下的預期收益:①高效的醫院IT運維管理系統不僅能節省大量的人力、物力、財力,在快速高效地為臨床業務科室解決問題的同時,更有效地增加與臨床業務科室的黏合度。②有效利用現有的人力資源,實現任務計劃自動化,有效地減少了重復和冗余的工作。③規范流程體系,信息科內維護人員職責清晰,避免工作上相互推諉。(梳理溝通渠道,減少溝通障礙,加快故障處理速度。⑤量化信息科維護人員的工作量,形成了強有力的考核體系。⑥建設考核監督體系,增強信息科維護人員的責任心、執行任務更到位。⑦醫院IT系統的價值和效率可以通過數字來評價,人、設備、軟件都可以進行客觀準確的評價,績效可視化。⑧信息共享平臺,提高信息維護人員的專業素質、服務能力和工作效率;規范信息科的服務水平、工作流程,避免人事變動潛在的風險。⑨降低IT運營成本,減少運營風險。⑩流程的引入規范了操作流程,使業務更加流暢。每個環節的處理人員都知道下一步做什么,減少了猶豫和思考的時間:保障了業務系統穩定、良好的運營,改善了與臨床業務部門的緊張關系。
5.建設過程中的困難
服務流程的改變給信息科工作人員和臨床業務科室相關操作人員帶來不適應、不習慣,會有一些工作人員不愿意接受醫院IT運維管理系統,必須通過有效的溝通來消除其抵觸情緒,讓相關工作人員充分認識系統實施的必要性:流程是醫院IT運維系統的核心內容,在設計時,應充分考慮信息科內工作人員的實際工作能力以及各業務系統的特點,確保流程是順暢的;IT運維管理系統的建設是一個逐步完善,逐步優化的過程,應根據實際情況,先立足于監測業務。搜集、完善相關信息,制訂管理流程,完成監控管理系統,完成對IT基礎架構的監控,然后再逐步擴展到服務管理系統。6.小結
在現代醫院發展戰略的指導下,為保證和提高信息科技術水平及服務質量,變“被動式服務”為“主動式服務”,從“管理IT基礎設施”向“為業務部門提供IT服務”轉變,信息科迫切需要引入先進的IT運維管理理念,并把理論與工具相結合,建立一個對基礎架構平臺進行統一監控和維護以及對服務流程和質量進行統一考核與指導的醫院IT運維管理系統。
第二篇:運維管理系統建設
ITIL提升中國電信運維管理系統建設
ZDNet CIO頻道 更新時間:2008-01-25 作者: 來源:CSDN 本文關鍵詞: 中國電信 ITIL 運維管理
運維管理是電信運營商主要的生產和管理活動之一。運維管理系統建設和運營的好壞直接影響到電信運營的整體成本、管理水平和服務水平。因此,近兩年來,各大電信運營商紛紛對現有的運維系統進行改造。
中國在電信領域的增長速度超過了其GDP增長的速度。正是電信快速的增長,推動了運維系統的發展。如何更有效地利用現有的資源,提高運營維護的工作效率,提高整體服務質量是目前各大運營商面臨的普遍問題。毫無疑問,中國電信在運營維護方面,也面臨相同的問題。建設新一代中國電信運維管理系統,成為解決目前運維管理問題的唯一方案。
根據我們長期在電信領域的實踐,下面的幾點經驗,值得我們在中國電信運維系統的建設中更加關注。
一、采用ITIL作為運維系統的方法論
IT基礎架構庫(ITIL-ITInfrastructureLibrary),被譽為IT服務管理的圣經,其中包含了總結國際大公司在IT服務管理中的經驗并得到證明的IT服務計劃和運營的最佳實踐框架。
ITIL已經為《財富》500強的一些企業所采用,并取得了預期的效果。加特納(Gartner)和國際數據集團(IDC)等世界權威研究機構的調查研究表明,企業通過在IT部門實施最佳服務管理實踐,將因重復呼叫、不當的變更等引起的延誤時間減少了79%,每年每個終端用戶平均節約800美元的成本,同時每項新服務推出的時間也縮短一半。
要成為國際一流的企業,就要吸取國際一流企業的成功管理經驗,借鑒其管理手段。因此,中國電信在運維管理系統的建設,也應確立ITIL在系統建設過程中的方法論地位,吸取ITIL中的成功經驗。
作為眾多國際大型企業成功實踐的積累,ITIL使我們找到了解決運維流程規范的方式和方法。可是,如何更好地運用ITIL這一經典的方法論呢?我們認為應該注意兩點:
1)ITIL是從實踐中得來的精髓,不是僵化的教條,應該結合實際情況去運用ITIL,建立更加適合中國電信的流程規范,而不是照抄照搬。
2)由于ITIL理論博大精深,不可能在短期內在企業中全面實施。應該根據實際情況,選取實施重點,逐步實施,逐步完善。
在中國電信運維系統建設中,應該深入理解ITIL的核心理念,結合電信運維的現狀,解決核心和關鍵問題,逐步實現對運維的科學管理。
二、ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵
理順工作流程、提高服務效率是新運維系統建設的主要內容之一。
在工作流程的制定過程中,容易陷入以下兩個極端。
1.盲目照搬流程。作為方法論的ITIL,本身含有大量的成功實踐框架。但是,正如前面所說的,ITIL是從實踐中得來的精髓,不是僵化的教條,盲目照搬,只能使得工作流程不切合實際,并流于形式,對系統的貫徹和執行產生不好的影響。
2.完全遵照現有流程,實現其電子化。雖然這樣更符合目前的工作習慣,可能容易為運維人員所接受,但是,仍然解決不了目前運維所存在的一些問題。例如,我們在項目實施中曾遇到“工單在部門之間的重派”的問題。在當前手工作業的工作模式中,各單位將不屬于本單位處理范圍的工單,或部門需要其他部門配合的工單,均提交給故障處理的負責人,由該負責人向其他單位進行轉派和重派。這種處理方式,主要便于手工作業條件下負責人及時了解項目處理狀況。在建立運維系統后,負責人可以通過運維系統隨時了解到故障的處理狀況,每次重派和轉派之前,對負責人的回復變成了一種無效的工作,大大降低了事件的處理效率。如果僅僅將目前的手工作業電子化,那么故障處理的效率仍然沒有得到有效的提高。
因此,將ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵。
三、樹立主動服務觀念
在現行的運維工作中,我們經常遇到這樣的情況:一方面是運維部門疲于應付各種突發事件,加班加點處理各種重復事件,工作繁重,身心疲憊;一方面是客戶代表不斷抱怨和投訴“技術人員服務水平太低”。二者不可調和的矛盾,是新運維系統要解決的重要問題。
傳統的運維方式給人的印象是:故障發生前,維護人員似乎無所事事;故障發生后,則是手忙腳亂。這就是被動服務給人們留下的印象,運維人員是在被動地等待故障的發生。在新的運維系統中,我們必須改變原有的運維方式,變被動服務為主動服務。
在主動服務模式下,運維人員主動地監控系統的變化,對日常工作及故障處理完成后主動進行問題分析,對系統的變更風險進行評估。在新系統中,可以通過種種技術措施,使得運維工作從被動服務轉移到主動服務,如:增加變更管理流程以防范變更風險。
在日常運維工作中,變更工作是在所難免的。例如,新的系統安全漏洞被公布,為了保證系統安全,就需要安全系統補丁,而這種變更給系統帶來的風險則是難以估計的。例如在安裝補丁后,有時會產生大量莫名其妙的問題。這么一個簡單的例子已經可以說明,如果沒有很好的風險防范手段,系統變更將給我們的日常運維工作帶來大量的問題,后果往往是難以想象的。在新系統中,我們可增加變更管理流程。在變更管理流程中,變更方案需提交變更經理,由變更經理組織由專家組成的變更顧問委員會(CAB)對變更進行風險評估,在評估通過后才能夠進入變更的實施過程。變更管理是防范變更風險的最好辦法。
當然,主動服務是一種理念,在這種理念下,我們可以定義更多的流程,如問題管理流程,對系統中存在的隱患問題進行挖掘,防患于未然。總之,我們應該樹立這樣一個理念,在各流程的定義中進行運用,主動地提早發現系統存在的風險和隱患,減少突發事件的發生。
四、從平臺到業務的全面管理
網絡管理是運維系統的組成部分。對系統的監控也是運維的主要業務之一。以往網管系統實現了對平臺的監控,可是在實際運維工作中,平臺往往只有少數的幾個系統管理員負責,大多數業務人員更多地是面對業務系統。對于業務的監控和管理,是業務人員更加關心的問題。因此,在網管系統中,應加入業務監控的內容。
需要注意的是,業務是建立在平臺的基礎之上的,而不是孤立存在的。因此,監控中,應強調業務監控與平臺監控密不可分的聯系,從業務的角度出發,建立平臺與業務的關聯關系。在故障發生時,應能夠即時描述對業務的影響程度,能夠描述故障的影響范圍。
例如:采集源的某臺交換機產生異常,除了可以看到交換機告警外,我們還應該能夠在業務拓撲圖中直觀看到,采集系統受到影響,同時采集、預處理、分揀等相關業務也不同程度受到影響。其影響程度,能夠通過不同的顏色直觀地展示出來。
只有這樣才能夠更加直觀而全面地反映系統的運行狀態,反映業務的運行情況。能夠幫助運維人員在故障發生時,快速修復關鍵部件,減少故障帶來的損失。
五、建立科學的激勵與監督機制
多年來,系統的使用和推廣問題成為系統能否得到良好運用的一個重要問題。
假設:我們制定了變更管理流程,但是,變更管理沒有被很好地執行,而只是流于形式,則風險的防范也只能是停留在理論上的空談。
在運維系統建設過程中,建立了一整套科學的考核制度,以激勵運維人員更有效地提高服務質量和服務水平,是至關重要的。
對運維人員的考核,并不能就管理論管理,應該從客戶服務的角度出發,以客戶滿意為前提,進行考核。例如,根據每個部門的服務水平,制定了服務時限。假設,某個用戶投訴,需要多個部門協同進行處理。在處理過程中,各部門互相推托,雖然工單在各部門的停留時間沒有超過部門承諾的時限,而整體處理時間已經超過了運營商對該用戶承諾的處理時間。為了杜絕這種現象的出現,我們應該從用戶的角度出發,進行各部門處理時間的分段計算。計算結果將反映在每月故障處理情況的統計報告中,而這些報告直接與各部門、各單位的績效考核掛鉤。
通過這樣的考核機制,形成對員工日常工作的科學評價,既調動了員工積極性,又提高了工作效率和服務質量。
第三篇:運維管理系統方案
運維管理系統方案
概述
伴隨著企事業網絡規模的不斷擴大,企事業服務器的增多,企事業管理的信息化,企事業網絡管理也變的越來越重要。一旦網絡、服務器、數據庫、各種應用出現問題,常常會給企事業造成很大的損失。怎樣能7x24小時檢測網絡系統的運行情況,避免各種故障的發生,改進傳統的網絡管理方式來適企事業信息化發展的需要?
因此,運維管理系統就有他的必要性。一個完備的運維管理系統能夠提供7x24小時檢測網絡、服務器、數據庫、各種應用系統,及時發現將要出現的問題,并通過短信、Email、聲音報告給運維管理人員。運維管理人員就可以及時排除故障,避免造成重大損失。
? ? ? ? ? ? ? ? 運維管理系統的功能:
故障發現與警報;
記錄日常運維日志信息; 服務器故障統計;
服務器軟硬件信息統計; 服務進程管理;
將數據信息存儲到數據庫,并使用圖形方式直觀的展示出來; 權限、密碼管理; 將數據生成報表。運維管理系統的特點: ? ? ? ? ? ? ? 郵件和短信實時故障報警;
B/S結構,能夠通過web對遠程服務器下達指令;
監控服務器和被監控服務器之間通過python socket來發送信息; 統計日常故障處理,以便下次出現同樣故障時能夠更快的解決問題; 實現自動化管理和自動化監控; 安全管理服務器性能; 操作流程統計與管理。
第四篇:系統運維管理-IT基礎設施運維管理規范
IT 基礎設施運維管理規范 文件編號:運維-002-V1.0
目錄
運維管理規范--------------4 1.目的------------------------4 2.適用范圍------------------4 3.規范性引用及參考-----4 4.本文術語,定義和縮略語---------------------------5 5.基本要求------------------6
5.1運維管理原則-----6 5.2制度和流程管理6 5.5供應商管理--------7 5.6督促檢查-----------7 6.運行維護------------------8
6.1日常操作及監控分析--------------------------8 6.2 數據與介質管理-8 6.3機房管理-----------9 6.4 網絡管理----------9 6.5 弱電管理---------10 6.6桌面維護----------10 6.7服務器及系統變更----------------------------11
6.8 配置管理---------12 6.9 事件與問題管理 12 7.應急管理-----------------12
7.1應急準備----------12 7.2應急處置----------13
運維管理規范
1.目的
為規范公司運維工作,使相關工作具有持續改善及相互協作性,同時加強計算機設備的管理及維護,確保維修工作的及時性,降低計算機設備的報修率,實現業務與技術的融合,將業務部門與IT 部門緊密結合在一起,根據公司管理要求及計算機應用的需要,由運維部制定。
2.適用范圍
本規范規定了運維管理工作的要求。
本規范適用于維信理財集團(中國)總部,包括全國各分部及門店。
3.規范性引用及參考
◆ IT 服務管理國際標準ISO/IEC 20000 ◆ 企業獲得ISO/IEC 20000認證的權威指南 ◆ 全球著名IT 服務管理書庫(ITSM Library)◆ IT 服務質量管理原則
◆ 理解ISO/IEC 20000在IT 服務中的地位 ◆ ISO/IEC 20000規范和實踐準則 ◆ IT 服務管理國際標準ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技術 信息系統安全管理要求
◆ ISO 31000:2009 風險管理 原則和指南(Risk management--Principles and guidelines)
◆ JR-T 0060—2010 金融信息系統安全等級保護基本要求 ◆ JR/T 0074-2012 金融IT 服務管理基本規范 ◆ 中國金融標準化報告(2011)
4.本文術語,定義和縮略語
1、IT: Information Technology 信息技術
2、DNS: Domain Name Service 域名服務
3、DHCP: Dynamic Host Configuration Protocol 動態主機配置協議
4、VPN: Virtual Private Network 虛擬專用網
5、OA: Office Automation 辦公自動化系統
6、ISO: International Organization for Standardization 國際標準化組織 編訂日期:30.7.2014 批準日期: 生效日期:
7、故障: IT設備或系統喪失規定的功能,導致服務中斷或降質,或對正常運行造成潛在威脅。
8、異常: IT設備或系統的狀態發生超出預期的變化或性能指標參數超出正常范圍,有可能引發或已經引發故障,需要引起運維人員關注或處理。
9、資料: IT設備或系統的運行記錄,包括IT 設備或系統的配置、故障歷史記錄、軟硬件擴容或調整記錄、權限變更申請記錄等。
10、運行維護:本規范中的運行維護包括IT 基礎設施維護、IT 應用系統運維維護、安全管理、網絡接入、內容信息以及綜合管理等。
5.基本要求
5.1運維管理原則
公司按集中與分散相結合的原則,設立機房、各部門配備電腦。計算機系統本著“總體規劃、分步建設”的方式實施建立。
計算機系統建設應綜合考慮成本、費用、效率、效果、先進性及適用性,選擇最優技術、經濟方案。
5.2制度和流程管理
運維管理制度應包括但不限于機房管理、網絡與系統管理、數據和介質管理、配置管理、安全管理、監控管理、文檔管理、設備和軟件管理、供應商管理等制度。
運維操作流程應包括但不限于日常操作、事件處理、問題處理、系統變更、應急處置等流程。
5.3 文檔管理
對運維過程中涉及的各類文檔進行管理,可按照制度文檔、技術文檔、合同文檔、審批記錄、日志記錄等進行分類,并妥善保存。5.3.2 對文檔的版本應當進行控制。
文檔在使用時應能讀取、使用較新版本,防止作廢文件的逾期使用。
5.4設備和軟件管理
建立計算機相關設備和軟件管理制度,對設備和軟件的使用、安裝、維修(升級)等進行規范。明確設備和軟件管理責任人。對設備進行標識,標識應放在設備明顯位置。
規定設備和軟件的使用年限,定期進行盤點,并對設備狀態進行評估和更新。
對外送設備的維修進行嚴格管理,防止數據泄露。
對擬下線和擬報廢設備的存儲介質中的全部信息進行清除或銷毀。對正式下線設備和軟件交指定部門統一管理、保存或處置,并保留相應記錄。設備和軟件報廢應符合公司現行資產管理規定。
5.5供應商管理
對供應商支持運維服務的相關活動進行統一管理。
在與供應商簽訂的合同中明確其應承擔的責任、義務,并約定服務要求和范圍等內容。
應定期收集、更新供應商信息,組織對供應商的服務質量、履約情況、人員工作情況等內容進行評價,并跟蹤和記錄供應商改進情況。加強運維外包服務管理,主要包括:
a)明確外包公司應當承擔的責任及追究方式;
b)明確界定外包人員的工作職責、活動范圍、操作權限; c)對外包人員工作情況進行監督和檢查,并留存相應記錄; d)對駐場外包人員的入場和離場進行管理; e)定期評估外包的服務質量; f)制定外包服務意外終止的應急措施。
5.6督促檢查
定期檢查審計,對運維制度的執行情況和運維工作開展情況定期進行檢查和審計,以督促運維工作持續改進。
指定人員負責對日常操作執行情況進行檢查,確保運維管理制度和操作流程的有效執行。對檢查和審計結果采取糾正、預防措施。
6.運行維護
6.1日常操作及監控分析
未經許可,任何人不得隨便使用電腦及相關設備。不得更換電腦硬件和軟件,拒絕使用來歷不明的軟件和移動設備。
電腦發生故障時,使用者作簡易處理仍不能排除的,應立即報告IT,非專業管理人員不得擅自拆開機箱或調換設備配件。
計算機及其相關設備的報廢需經過IT 部門或專職人員鑒定,確認不符合使用要求后方可申請報廢。
運維應采取各種監控措施,配備視頻、語音、系統監控和報警工具,對影響信息系統正常運行的關鍵對象,包括機房環境、網絡、通信線路、主機、存儲、數據庫、核心交易業務相關的應用系統、安全設備等進行監控。
主要監控指標具體如下:
a)機房:電力狀態、空調運行狀態、消防設施狀態、溫濕度、漏水、人員及設備進出等;
b)網絡與通信:設備運行狀態、中央處理器使用率、通信連接狀態、網絡流量、核心節點間網絡
延時、丟包率等;
c)主機:設備運行狀態、中央處理器使用率、內存利用率、磁盤空間利用率、通信端口狀態等;
d)存儲:設備運行狀態、數據交換延時、存儲電池狀態等;
e)安全設備:設備運行狀態、中央處理器使用率、內存利用率、端口狀態、數據流量、并發連接數、安全事件記錄情況等;
6.2 數據與介質管理
配合數據應用部,對核心業務數據進行周備份,并每季度進行恢復性測試。
對設備和人員出入進行管理。進入機房應限制和監控其活動范圍,并有專人陪同;未經批準不得接入生產環境。
6.3機房管理
對機房環境、供電、空調、消防、安防等基礎設施的運行維護、設備和人員出入、機房工作人員等進行規范管理。
應指定機房管理負責人。確保機房環境整潔和安全,包括:
a)應定期檢查防水、防雷、防火、防潮、防塵、防鼠、防靜電等措施的有效性;
b)應保持機房環境衛生,設備擺放合理,歸類; c)不得隨意出入機房。
d)未經審批不得接入其它用電設備。
6.4 網絡管理
確保網絡、系統的正常運行。網絡管理應包括: a)繪制網絡拓撲圖,并保持更新;
b)應保持網絡設備的可用性,及時維修、更換故障設備; c)應負責網絡系統的參數配置、調優; d)應定期對系統容量進行檢查和評估;
e)應定期檢查網絡設備的用戶、口令及權限設置的正確性;
f)應定期對整個網絡連接進行檢查,確保所有交換機端口處于受控狀態; g)應對網絡信息點進行管理,編制信息點使用表,并及時維護和更新,確保與實際情況一致。計
算機網絡跳線應整齊干凈,跳線標識清晰;
h)應制定網絡訪問控制策略,應合理設置網絡隔離設施上的訪問控制列表,關閉與業務無關的端口;編制文檔并保持更新;訪問控制策略的變更應履行審批手續。
權限管理應包括如下要求:
a)權限分配應履行審批手續,權限設置后應復核; b)應按照最小安全訪問原則分配用戶權限; c)應在用戶賬戶變化時,同時變更或撤銷其權限; d)應定期檢查權限設置的有效性。
6.5 弱電管理
嚴格按圖紙施工,在保證系統功能質量的前提下,提高工藝標準要求,確保施工質量。質量檢查制度,現場管理人員將定期進行質量檢查并貫穿到整個施工過程中。統運行驗收:當設備安裝完畢并調試運行無誤后,由公司派現場調試人員進行系統聯調,并向上級匯報調試結果。運維對弱電設備的綜合管理,包括技術資料、檔案的收集。同時,每月一次對弱電設備運行狀況進行檢查,并及時處理匯報問題。
6.6桌面維護
日常數據注意事項:
a.個人文件(Excel、Word、PDF 等)建議員工不要存放在系統盤(通常為C 盤),可以存放在其它盤符。
b.工程師可通過多種方式或途徑來告知員工如何進行日常文件的備份,如:口述、郵件、培訓等。
c.未經許可,禁止使用U 盤,移動硬盤,手機或其它外設,如:網盤、郵箱等,盜取公司內部文件。
重裝系統前注意事項:
a.詢問用戶有哪些相關數據需要備份,如桌面、我的文檔、收藏夾、郵件等。b.用戶Email 的備份:如客戶端為Outlook 則導出相關OST 或PST 文件;硬件損壞需更換或維修時,運維人員進行測試,明確是否真實異常,不可隨意更換。
關于賬號、權限、密碼
a.必須嚴格按照公司制定的IT 策略進行管理,不可私自制定規范。b.禁止私自把個人管理員權限借給他人或告知他人。
c.禁止為他人開設規定以外的權限,如:本地管理員、其他部門目錄訪問權限、上網權限、電話權限等。
d.更改任何類型用戶權限時需得到相關審批層級確認才可執行。e.如電腦無特殊應用需求,則一律為“user”普通權限。
f.人員離職時,總部和分部應及時通過OA 確認,刪除離職人員的相關賬號與信息。
g.妥善保管自己所知的密碼。
6.7服務器及系統變更
不得在服務器上使用帶有病毒和木馬的軟件、光盤和可移動存貯設備,使用上述設備前一定要先做好病毒檢測;不得利用服務器從事工作以外的事情,無工作需要不得擅自拆卸服務器零部件,嚴禁更換服務器配套設備。不得擅自刪除、移動、更改服務器數據;不得故意破壞服務器系統;不得擅自修改服務器系統時間。
使用空閑主機,對服務器系統補丁進行升級測試,運行平穩后,各服務器升級安裝補丁,彌補系統漏洞;為服務器系統做好病毒及木馬的實時監測,及時升級病毒庫。
管理員對管理員賬戶與口令嚴格保密、重要數據庫,網站,APP 等服務器由研發配合定期修改密碼,以保證系統安全,防止對系統的非法入侵。
任何無關人員不得擅自進入主機房,需要進入的須征得服務器管理人員同意。應注意保護機房內的設備和物品,未經允許的非管理人員不得擅自操作機房內設備。
嚴禁攜帶易燃易爆和強磁物品及其它與機房工作無關的物品進入機房,機房內嚴禁吸咽。除管理員外,任何人不得隨意改動服務器內系統及環境配置。
除系統管理員或授權參加系統管理的人員外,任何用戶不得以任何方式獲取(或企圖獲取)超級用戶權限。
6.8 配置管理
明確配置管理負責人。
建立配置文檔庫,對服務器、存儲、網絡、安全設備,操作系統、應用軟件、數據庫等進行管理。
定期對配置進行備份及文檔庫歸類。
及時檢查并定期審計,對發現的不一致情況及時糾正修改。
6.9 事件與問題管理
對運維事件的處理進行規范,對發生的所有事件,根據事件的影響程度和影響范圍評估事件處理優先級并及時處理。
對所有事件響應、處理、結束等過程進行跟蹤、監督及檢查。對問題進行分析、提出解決方案,通過變更管理審批后部署實施。
7.應急管理
7.1應急準備
明確網絡、系統等事件的應急指揮決策機制,負責網絡與系統事件的預防預警、應急處置、報告和調查處理工作。
網絡與系統應急管理應遵循“誰主管誰負責、誰運行誰負責”、“統一指揮、密
切協同;注重預防、減少風險;科學處置、及時報告;以人為本、公平優先”的原則。
應急準備應符合如下要求:
a)系統管理員、網絡管理員、安全管理員等關鍵崗位應熟練掌握應急預案,能有效處置相關事件;
b)在自身力量不足以滿足應急要求的情況下,應與相關供應商簽署服務保障協議。協議內容應包
括雙方聯系人、聯系方式、服務內容及范圍、應急處理方式等。應定期檢查和評估協議的執行情況,確保服務保障措施落實到位,確保在應急處置中相關單位能提供及時有效的技術支持;
c)應建立有效的應急通訊聯絡系統,確保信息暢通;
7.2應急處置
在發生網絡與系統事件后,迅速采取應急措施,盡快恢復信息系統正常運行,如有重要情況應及時上報。
暫時無法確定事件原因、責任和結論的,應先給出事件的初步分析判斷,并組織力量盡快查找原因,給出解決方法,采取整改措施。
第五篇:IT運維管理系統規劃
IT運維管理系統規劃
MIS網絡信息運維管理系統規劃(征求意見稿)作者:張鵬 二〇一〇年一月 前言
托電信息化發展歷經八年,從只有一個OA辦公系統、數十臺終端到如今擁有包括小型機在內的服務器五十余臺、交換機等網絡設備百余臺、終端上千臺。信息化工作的重點已經從信息系統建設向運維管理和系統應用的深度整合等轉移。
目前,信息中心每天的工作量,多數都屬于運維管理的范疇。信息中心從機組四期工程結束后就著手開始運維管理方面的建設工作,幾年間相繼上了藍帶思科桌面管理系統、東華的IT運維系統、青鳥桌面管理系統。這些系統的應用情況都不盡如人意,原因是多方面的,個人認為主要有以下幾點:
1.運維管理的理念形成需要逐步成熟的過程。2.受到與運維相關的信息技術發展制約。3.現有運維相關的產品有各自的側重或局限性。
信息中心正在實施的兩個項目NETIQ和機房環境監測系統為我們提供了一個契機,我們可以建設一個真正適合自己的網絡運維管理系統,這個時機已經基本成熟。
一、運維管理系統建設的可行性
信息中心運維工作主要來自網絡設備、系統應用、機房設備、終端。NETIQ服務器監控系統可以對服務器、數據庫進行集中監控管理。機房環境監測系統可以對機房溫濕度、空調、UPS等指標進行集中監控管理。終端管理方面,可以考慮購置更好的產品加上二次開發或者在現有桌面管理系統的基礎上進行二次開發。相對于以上,網絡設備的管理使用SNMP基本可以滿足運維需求,NETIQ可以實現,也可以在運維管理中心開發相應的管理模塊。這些系統的建設,本身就是具有針對性的綜合管理系統,而且可以為運維管理中心系統提供運維信息的采集平臺,是運維管理系統建設的基礎。
二、運維管理系統的構想
運維管理系統由外圍管理系統群和運維管理中心兩部分組成。外圍管理系統群包括網絡設備管理模塊、NETIQ系統、機房環境監測系統、終端管理系統,外圍系統群為運維管理中心提供運維信息采集平臺。運維信息采集包括網絡設備運維信息采集、服務器組運維信息采集、機房環境運維信息采集、終端運維信息采集。
運維管理中心主要包括以下幾個部分:運維任務的生成、運維任務的處理、完成確認、知識庫、運維統計分析、運維報告、績效評價、違規處理、維護商管理、應急預案管理、系統權限等。㈠生成運維任務
運維任務的生成有兩個途徑,一個是從信息采集獲得,另外可以手動生成。運維任務分為運行管理任務和維護管理任務兩類,運行任務管理是指系統、設備在正常運行狀態下的監控管理或操作,主要包括定期巡檢任務、正常的配置操作、補丁管理、用戶管理、升級操作等,巡檢任務由系統按規定自動生成,包括信息中心人員的日常巡檢和維護商的定期巡檢。維護管理任務是指當設備、系統出現異常或故障時的處理過程。運維任務的生成包括的信息有:設備或系統名稱、IP地址、報警信息、時間、運維編碼等等,由終端直接發起的運維信息應該包含聯系人的電話等,以便于運維人員接手任務后與發起人主動取得聯系。生成的運維任務包括網絡設備、應用系統、機房操作、終端運維等幾種任務。運行管理和維護管理并沒有嚴格的界限,往往是你中有我我中有你。㈡運維任務的處理
運維任務生成后,由管理人員按照各自的職責分工,領取相應的運維任務進行處理,運維任務處理過程及信息分類:
運維類別 網絡設備包括:交換機、路由器、防火墻、VPN設備、行為管理設備、其他 應用系統包括:操作系統、應用服務、數據庫、接口、其他
機房運維包括服務器、網絡設備、空調系統、供電系統、消防系統、環境監控系統 終端運維包括:終端、外設 運維內容
網絡設備包括配置操作:增加、更改、刪除,其他操作:版本升級、設備更換、其他 應用系統包括:配置變更、軟件安裝、升級、用戶管理、數據管理、日志管理、補丁管理、策略管理、其他
機房運維包括具體的設備信息
終端運維包括:電腦硬件、操作系統、應用程序、打印機、其他 處理過程
處理結果
原因分析 影響情況 對用戶的影響情況(時間范圍)
運維任務在處理過程中包含以下幾個狀態,分別是: 等待處理: 等待運維人員接手 執行狀態:運維人員正在處理任務
掛起狀態:運維過程中出現其他急需辦理的事物或其他原因暫停執行 提交狀態:任務處理完畢,等待完成確認 完成狀態:一個任務完全結束后的狀態
駁回狀態:任務處理過程中信息有待補充等原因被駁回。
當任務處理人員發現需要維護商來處理的時候,將任務轉給維護商,由維護商接手任務,相關人員配合共同完成運維任務并填寫相應的記錄,最后由運維人員給予維護商相應的評價。㈢運維任務的完成確認
對已經完成并提交的運維任務進行確認、評價,對于運維內容是否放入知識庫給予確認,對于運維過程中存在的違規情況根據相關規定給予處罰確定等。㈣知識庫
知識庫的信息積累來自于運維管理系統和平時的手工錄入,應做好信息的分類、查詢功能。當運維任務生成后,系統會把相關的信息在知識庫中進行檢索,并把結果顯示在任務中,供運維人員參考。㈤運維統計分析
當某些問題經常出現的時候,信息中心必須運用統計分析對設備、系統產生的問題或故障協同相關維護商,進行深入分析,找出原因,解決問題。另外運用統計分析可以為今后的運維工作提供指導方向,制定下一步運維計劃。㈥運維報告
通過運維管理中心,對運維數據有選擇的篩選、匯總,定期生成信息系統運維報告,以便于工作總結、分析、計劃。運維報告應具有針對性,例如呈送公司領導的、呈送各部門的以及信息中心的整體報告。㈦績效評價
運維系統內的各方包括終端用戶、維護商、運維人員都是可以評價的對象。終端用戶可以給打印機維護商評價;也可以給信息中心運維人員給予評價;維護商可以給維護人員評價;運維人員可以給維護商的工作給予評價;運維人員可以對終端用戶使用計算機的情況給予評價。㈧違規處理 對于運維過程中發現違反信息系統相關制度的行為應予以必要的處理。需要做兩方面工作:涉及這個內容的制度條款應該拿到系統中來,處理的方式方法有待確定;對于違規行為,在運維處理過程中應該做相應的證據記錄。㈨維護商的管理
對維護商的信息集中管理,運維工作予以記錄、評價,運維合同的到期提醒等,如何對維護商產生實際的約束力,發揮其在運維工作中應有的作用,是我們需要考慮的問題。
(十)應急預案管理
當設備或系統的故障達到規定程度時,啟動應急預案,并對整個處理過程實現系統化管理,以及預案的演練等其他工作進行記錄。
三、終端管理系統
目前通行的終端管理系統所包含的功能主要有:硬件信息的提取(CPU、內存、硬盤等)、操作系統基本信息(操作系統版本、安裝的應用程序等)、軟件分發、補丁管理、外設管理、遠程管理、主機防護等。有的產品還具有接入認證、內外網隔離、硬盤加密、網絡行為管理等功能。360安全套件在終端健康狀況、插件管理、實時防護、木馬查殺、垃圾清理等方面做的比較好。瑞星網絡版則是著重防病毒。將這些軟件的功能加以綜合利用,建設終端管理系統平臺(組),為運維管理中心提供數據。
廠區終端使用最多的是OFFICE辦公軟件和瀏覽器,出現問題最多的是瀏覽器,所以應當把對瀏覽器的運維作為終端運維的重點之一。此外終端管理系統收集的終端硬件信息可以與信息中心現有的資產管理系統建立聯系,可以實現較為準確的資產定位,協同各部門信息員及時掌握資產的變動情況。
客戶端的二次開發要求:客戶端既屬于終端管理系統,又可以和運維管理中心通信,同時可以對于我們所需的現有產品沒有涉及到的進程或指標進行檢測。
1、實時交互性
當運維人員需要遠程維護時與終端用戶進行詢問、控制申請等信息交互,當運維任務結束后,終端用戶可以給維護人員以相應的評價。運維管理中心收集到的終端健康情況也可以發送到目的終端,給使用者以相關的提醒。
2、人性化
終端使用人提交運維申請后,可以看到運維管理中心當前的運維狀況,誰接手了自己提交的申請,自己排在第幾位等信息。客戶端運行應盡量避免對終端用戶的正常工作形成干擾,如果能做到讓使用者感覺很舒服又實用那是最好了。
3、資源占用率 客戶端運行時,進程的大小,CPU占用率可以參考較為成熟的軟件如360及瑞星運行時的情況。
4、定制化安裝
對于信息中心維護范圍內和維護范圍外的終端,應該采取不同的安裝策略。比如對維護范圍外采用接入認證、監控健康狀態、信息提醒等,但不啟用維護功能。用戶在安裝客戶端時,填寫相應的信息以便系統管理。
四、運維系統建設工作重點 1.運維管理中心的開發 2.終端管理系統的建設
3.NETIQ系統所涉及監測指標的調整,與運維管理中心的接口準備 4.機房環境監測系統所涉及監測指標的調整,與運維管理中心的接口準備
5.對于特定應用系統的運行監測,NETIQ能否開發出對應的監測服務模塊,或者應用系統的開發商可以開發出對自身運行狀況的監測功能。6.與運維工作相關制度的完善、建立。
五、總結
綜上所述,運維管理系統由多個子系統組成,我們應該看到它的復雜性。如何讓整個系統協調運作,如何挖掘、調整、發揮運維系統的功能,提高運維工作效率,不是一朝一夕的事情。運維管理系統體現的是管理理念,相關制度的落實是整個運維工作做的好壞的關鍵,也是運維管理系統成功的關鍵。