第一篇:同城數據災備中心建設實現方法探討
同城數據災備中心建設實現方法探討
本文結合國土資源部數據中心現狀,分析研究了實現同城災備的技術方案,即同步傳輸方案和異步傳輸方案,以及這些技術方案的技術實現層面:存儲層、主機層和數據庫層。在此基礎上,本文進一步分析了兩種方案的技術框架、設備組成和技術特點,并對兩種方案在數據安全保障、對生產系統影響、傳輸距離和帶寬要求和應用場景等方面進行了對比,為今后同城災備中心建設提供了思路。引言
在“十一五”期間,隨著國土資源行業內諸多調查評價工程的開展和信息化建設的推進,國土資源部數據中心積累了大量的數字化成果,這批成果越來越多地應用于國土資源部各類業務系統中,成為國土資源管理和國家宏觀決策的重要信息參考來源。
另一方面,隨著存儲與應用服務等計算機硬件設備的增加,來自硬件設備本身、機房環境、人為操作和外界不可預知的風險及不確定性也隨之增加,造成數據丟失或業務的突然中斷,給國土資源管理帶來重大不便。因此,保障國土資源數據安全和業務系統穩定運行是今后數據中心首先要考慮的問題。現狀與需求
2.1現狀
目前,在國土資源部數據中心已經建立了基于SAN架構的內網核心存儲備份系統,管理著支撐電子政務平臺和綜合監管平臺等重要業務系統的數據源,該架構下的存儲備份體系框架圖如下所示:
數據中心的存儲設備由兩臺磁盤陣列組成,分別是HDS 9980V和HDS USPV,通過兩臺Brocade 24000光纖交換機與生產主機、存儲備份服務器和磁帶庫連接組成存儲局域網(SAN),存儲備份軟件采用Bakbonenetvauh實現眾多應用系統數據的定期備份。目前的存儲備份體系解決了在數據中心內部出現單點故障的情況下數據的安全問題。
點擊圖片查看大圖
圖1 國土資源部數據中心內網存儲備份體系示意圖 2.2 需求
為了解決在部數據中心發生整體災難的情況下數據安全問題,需要在同城某地機房選擇建立一個數據備份中心,把部數據中心重要業務系統的數據備份到災備中心,在生產中心發生災難的情況下,實現數據的可恢復和可使用,在有限的投資和管理成本下,實現最小程度的數據丟失。實現方案
在同城實現數據災備有兩種方式可供選擇,一是數據同步傳輸備份方式,二是數據異步傳輸備份方式。數據同步傳輸備份方式,就是通過容災軟件將本地生產數據通過某種機制復制到異地,在異地建立起一套與本地數據實時同步的異地數據。數據異步傳輸備份方式則不要求備份數據與生產數據實時同步。
在實現方法上,目前可以操作的層面有三種,一是存儲硬件本身,就是通過盤陣自帶的軟件模塊實現兩端的數據傳輸,如EMC的SRDF、HDS的UR和TrueCopy、IBM的PPRC等;二是應用主機層面,通過應用主機進行兩端的數據傳輸,如IBM的XRC軟件、Bak—Bone的NetVauh Replicator和Veritas的VVR軟件等;三是數據庫層面,通過數據庫的相關模塊實現兩端的數據傳輸,如:Oracle的Data Guard和SQL Server的Mirror等。這三種層面的數據傳輸都可以實現同步和異步的方式。
基于存儲硬件本身的同城災備需要兩端的磁盤陣列為相同類型,而且在兩端部署統一版本的數據傳輸軟件;基于主機的數據傳輸則需要在兩端各部署一臺主機,在主機上安裝數據傳輸軟件,而不要求兩端的磁盤陣列為相同類型;而基于數據庫的數據傳輸則要求數據庫類型一致,對主機和磁盤的依賴較小。方案對比
實現同城異地的數據災備,根據數據傳輸的方式,分為同步傳輸方案和異步傳輸方案兩種,兩種方案對傳輸鏈路、配置硬件和數據安全保障方面都有一定的區別。
4.1同步傳輸方案
同步傳輸方案由于兩端對數據傳輸
的實時性要求比較高,一般采用光纖鏈路實現生產中心和災備中心的數據傳輸。同步傳輸方案的示意圖如下(圖2):
點擊圖片查看大圖
圖2 基于光纖鏈路的同步傳輸方案示意圖
在同步傳輸方案中,除了租用光纖鏈路之外,還需要在生產中心和災備中心部署以下軟硬件設備:
磁盤陣列:如果采用基于磁盤陣列的容災軟件,則需要在災備中心部署與生產中心同類型的磁盤陣列,兩端分別部署容災軟件;如果是采用基于主機和數據庫的容災軟件,則不需要部署相同類型的磁盤陣列。管理、測試與驗證服務器:部署在災備中心,用來管理、測試與驗證備份數據,不一定與生產中心完全相同,但是需安裝相同的應用系統、數據庫系統、中間件等。
密集波分復用器(DWDM):需要在生產中心和災備中心各部署一個,實現備份數據的多波段傳輸。
4.2異步傳輸方案
異步傳輸方案可以采用與同步傳輸方案相同的架構(如圖2所示),只是容災軟件設置的數據傳輸方式不同。
另外,http://www.tmdps.cn/zixun/異步傳輸方案由于對傳輸速度的要求不像同步傳輸那樣苛刻,可以采用以太網絡傳輸,因而不受距離的限制。采用以太網絡傳輸的異步備份方案如圖3所示:
硬件配置方面,由于采用了以太網鏈路傳輸,需要在生產中心和備份中心兩端各部署一臺FC和IP轉換的路由器,而不是密集波分復用器(DWDM)。其他硬件設備可參照同步傳輸方案配置。
點擊圖片查看大圖
圖3 基于以太網的異步傳輸方案示意圖
4.3方案對比
采取同步或異步的備份方式,需要根據業務系統應用特點、需要備份的數據量和投資成本來綜合考慮。除了本身傳輸方式的區別以外,采取同步或異步的數據備份方案,還存在以下幾個方面的區別。
數據安全保障方面。同步傳輸備份方案在最大程度上保障兩端的數據一致,在一定的距離內做到了數據的零丟失;異步傳輸備份方案由于存在一定的時間差,會有一定程度的數據丟失,數據丟失量是依據傳輸策略制定可控的RPO(數據恢復點,例如2小時、4小時、12小時等),RPO值設置越小,數據丟失越少。
對生產系統的影響。同步傳輸備份方案會占用生成系統的I/O,降低生產系統的性能,異步傳輸備份方案對生產系統不會產生過多影響。
傳輸距離與帶寬要求。同步傳輸方式要求帶寬比較高,一般采用光纖鏈路,距離(鏈路距離)不超過100公里,最好在60公里以內;異步傳輸方式對帶寬和距離的要求低很多,可以采用以太網絡,因此不受距離限制。
適用場景。同步傳輸方式適用于業務系統數據變化和更新頻率高,數據比較重要,不允許有任何數據丟失的業務系統,同時,投資的企業和部門又有意愿和財力進行設備投資和改善生產系統的運行性能。異步傳輸方式適用于業務系統數據變化和更新頻率不高,能夠容忍一定程度的數據丟失的業務系統,同時,投資企業和部門又不愿花費過多財力進行設備投資和生產系統的更新升級。討論和建議
在部數據中心雖然運行了許多的業務系統,但是大部分業務系統不像銀行、保險等金融業務那樣實時強,數據不必做到零丟失,同時,考慮到遠程災備的目標是應對小概率事件,那么,災備的投入產出比就非常重要,因此盡可能少的減少投資成本和運維成本是建設災備中心需要考慮的一條重要原則。
另一方面,數據災備是應用災備和系統災備的基礎,因此如果考慮今后應用災備和系統災備建設,首先要考慮災備中心對數據的實時忙E要求,所以,災備中心建設要立足于今后和實際需求,合理地確定技術方案。
第二篇:飛康CDP助大連市公安局成功建設同城數據級災備系統
飛康CDP助大連市公安局成功建設同城數據級災備系統
隨著全國電子政務進程的推進,國家提出了以“公安信息化工作”為核心,以“科技強警”為目標的國家公安信息化工程的建設要求,盡快實現公安系統的信息化成為各級公安機關的重要工作。
大連市公安局是主管大連市公安工作的市政府組成部門,下設十二個區、市(縣)分局,三十余個業務部門在市委、市政府和上級公安機關的領導下,承擔著大連市公共行政管理和執法辦案等重要職能。隨著信息化體系的日臻完善,大連市公安局的各項重要業務系統成為保障大連市公安局對外服務功能有效發揮的重要環節。任何意外情況、硬件的損壞以及人為誤操作等所帶來的數據丟失和業務停頓都可能給大連市公安局造成無法挽回的經濟損失和名譽損失。
雖然大連市公安局之前采用了數據庫雙機冗余等技術,以盡可能消滅應用系統中的單點故障,但是對于保障IT系統的完全抗擊故障和災難的能力,以及達到在故障發生后的迅速恢復能力方面,現有的傳統備份體系仍然暴露出相當大的差距。為核心業務系統與數據建立有效的災備系統,成為大連市公安局的首要任務。
根據國家信息系統安全等級保護定級規定,大連市公安局規劃自己的災備系統建設目標為建立基于數據級別的同城數據級災備系統(第三級)。在確定了自身需求以后,大連市公安局對目前的主流災備技術進行了嚴格的評估,最后確定飛康CDP災備一體化技術是同時實現本地快速恢復系統及同城數據級災備系統的最佳選擇。
飛康CDP針對大連市公安局的需求建立的本地故障修復系統及同城數據級容災系統,是一套行之有效的,集磁盤鏡像、數據連續保護和備份于一體的綜合解決方案。通過在生產機房部署一臺飛康CDP管理器,對核心業務系統提供本地的持續數據保護及出現災難故障時的快速恢復能力。在同城異址的災備機房再部署一臺飛康CDP管理器,在兩臺CDP管理器之間執行精簡式數據復制,一旦本地出現存儲設備故障或是數據丟失、損壞,管理可以立即從災備機房的CDP設備中提取所需要的數據副本。
通過部署飛康CDP災備一體化技術,完全實現了大連市公安局對于備份和容災系統的建設要求:
1.進一步加強了對市局生產中心的核心系統的業務連續性保障,本地系列因任何故障造成停機或是數據丟失時,都可以通過飛康CDP實現本地快速恢復,并最大限度的保障業務數據不丟失。
2.為市局生產中心建立起了同城異址的數據級容災系統。當市局的生產中心出現設備故障或是災難時,可以利用災備中心的CDP上的完整備份數據提供有限的查詢操作。等待災難或故障修復后,再利用災備中心的備份數據對生產中心進行便捷的數據恢復。
3.為托管在市局的部分重要系統,如市局網站、辦公自動化網站等系統提供有效的數據保護與管理。
第三篇:同城應用級災備建設項目可行性報告2016-4-25
江蘇長江商業銀行
同城災備建設調研及可行性報告
我行科技信息部在項目啟動后,主要完成了以下幾個方面的工作:一是學習了監管機構對于業務連續性和災備中心建設的相關要求和規范。二是先后與省內多家金融機構進行了溝通交流,取得了其它金融機構在災備中心建設中的成熟經驗和做法。三是與國內多家較大的系統服務商和云計算服務商進行了技術交流溝通,了解當今主流容災技術、云計算技術和虛擬化技術的現狀和發展趨勢。四是和省內多家數據中心外包服務商進行了溝通交流,了解數據中心基礎環境設施、外包服務資源、運維服務能力,調研結果及項目可行性報告如下:
一、我行同城災備中心建設必要性
(一)、不斷提高的業務連續性要求
信息系統安全運行是企業正常生產的基礎,隨著我行規模的逐步擴大,各種金融應用、支付手段、服務渠道不斷增加,對業務連續性的要求也越來越高,任何重要交易系統的非正常停運,都會對企業的聲譽產生非常嚴重的影響,甚至可能造成無法預測的重大損失。由此可見,信息系統的安全及業務連續性直接關系到客戶和切身利益和銀行生死存亡。所以,建設切實有效的同城應用級災備中心對我行極為必要的。若生產中心發生不可恢復故障或災難,同城災備中心可迅速恢復接管生產運行并實現業務辦理,能極大地提高業務持續運行能力,降低信息系統安全風險。
(二)、監管機構對災備建設的要求 監管機構對我行的業務連續性風險管理非常重視。2015年江蘇省法人銀行金融機構信息科技風險管理指導委員會全體會議中,銀監局指出的轄內金融機構信息科技現存的問題,列舉了各家金融機構科技信息建設和風險管理方面的不足。并且,省銀監局潭局長要求我行務必于2016年啟動同城災備系統建設,全面提高我行信息科技抗風險能力,要及時啟動構建同城災備中心,發揮其接管業務、延續業務和雙活運行的作用。
我行高管層組織了科技部門負責人,認真學習了省銀監局潭局長在會議上的講話,根據省我行董事會和高管層非常重視監管領導提出的同城災備中心建設意見,已把同城災備中心建設列為我行全年的重點項目之一。
二、項目背景及實施資源調研情況
(一)、監管機構相關規范要求
一直以來,監管部門對銀行業務連續性風險管理和災備建設工作高度重視,在災備建設方面,通過以下相關文件進行規范管理。1、2003年,中央辦公廳、國務院下發的《國家信息化領導小組關于加強信息安全保障工作的意見》,對基礎信息網絡和重要信息系統災難備份恢復作了原則規定,第一次提到了重要信息系統需要具備災難恢復能力。
2、《信息安全技術信息系統災難恢復規范》(GB/T20988-2007)于2007年頒布,是災難備份與恢復的第一個國家標準。3、2008年,人民銀行頒布了《銀行業信息系統災難恢復管理規范》(JR/T0044-2008),針對銀行業災難備份與恢復制定了規范。
4、銀監會2010年下發的《商業銀行數據中心監管指引》(銀監辦發【2010】144號,對商業銀行災備中心建設有明確要求:商業銀行應于取得金融許可證后兩年內,設立生產中心;生產中心設立后兩年內,設立災備中心;總資產規模在1000億元人民幣以上且跨省設立分支機構的商業銀行應設立異地災備中心,災難恢復等級達到《信息安全技術信息系統災難恢復規范》中的第5級實時數據傳輸及完整設備支持,必須建立起完善的災備體系和業務連續性保障體系。其它法人商業銀行應設立同城模式災備中心并實現數據異地備份,重要信息系統災難恢復能力應達到《信息安全技術信息系統災難恢復規范》中定義的第4級別(含)以上。
相比較而言,國標《信息安全技術信息系統災難恢復規范》(GB/T20988-2007)和《商業銀行數據中心監管指引》(銀監辦發【2010】144號)兩文中的內容細致清晰,便于執行機構參照實施落地,通過調研省內其它金融機構了解到,大部分銀行機構都遵從上述兩文件實施災備系統建設和管理。
以我行現在的資產規模,整體災備建設級別需要遵從《商業銀行數據中心監管指引》(銀監辦發【2010】144號):應設立同城模式災備中心并實現數據異地備份,重要信息系統災難恢復能力應達到《信息安全技術信息系統災難恢復規范》中定義的第4級別(含)以上。RTO(災難恢復時間)應為數小時至2天,RPO(數據丟失時間)應為數小時至1天。
(二)、省內金融機構同城災備中心建設情況
江蘇銀行:生產中心位于南京市徐莊軟件園,同城應用級災備中心位于南京市洪武北路,距離約為15公里,采用了裸光纖和華為DWDM技術。異地應用級災備中心位于蘇州市,實現了核心及重要系統的應用級同城和異地容災。
南京銀行:生產中心位于南京市中山路,同城應用級災備中心位于一街之隔的匯杰廣場,采用了裸光纖及EMC存儲底層復制技術,實現了數據實時同步。異地災備中心位于山東日照,采用了存儲異步復制技術,重要生產系統實現了異地應用級災備。
蘇州銀行:生產中心和同城應用級災備中心都位于蘇州市區,兩數據中心距離約為9公里,采用了裸光纖及存儲底層復制技術,異地應用級災備中心位于深圳。
江陰農商行:生產中心和同城應用級災備中心都位于江陰市區,兩數據中心距離約為8公里,采用了裸光纖及存儲底層復制技術,異地數據級災備中心位于江蘇淮安盱眙市。
江南銀行:生產中心和同城應用級災備中心都位于常州市區(災備機房現使用電信機房過渡),采用了裸光纖及存儲底層復制技術,異地災備中心正在籌建中。
昆山、太倉農商行:兩家農商行都將同城災備設備托管到對方的數據中心機房內,采用了裸光纖及存儲底層復制技術,重要應用系統實現了應用級災備,異地災備中心正在規劃籌建。
江蘇省農村信用社聯合社:生產中心和同城應用級災備中心都位于南京市區(河西新大樓與虎距路),距離約為7公里,采用了裸光纖及存儲底層復制技術,異地數據級災備中心位于無錫市,異地災備中心正在實施由數據級升級應用級的建設中。
通過調研了省內多家銀行災備建設情況了解到,省內大部分金融機構都完成了同城應用級災備系統的建設,可實現核心重要應用系統的同城應用級切換接管,同城應用級災備主要采用了裸光纖(部分使用了光纖DWDM復用技術)和存儲設備底層復制,實現了數據同步復制不丟失。規模較大的機構實現了異地應用級災備,規模較小的機構實現了異地數據級災備。
(三)、省內可使用的數據中心機房情況
科技部對總行周邊150公里內可提供環境外包服務的機房資源進行了調查,可以提供機房外包服務的機構有以下四個:萬國數據蘇州、蘇州國科、無錫國際數據中心、泰州電信云計算中心。
萬國數據GDS蘇州昆山數據中心:該數據中心物業產權歸屬萬國數據公司,位于昆山市花橋鎮國際商務城,占地30畝,距離我行約150公里,建設標準為T3+級,總投資約9億元,機房面積約為8千平方米。現已有百度、騰訊、美洲銀行、巴黎證券等機構外包入駐。萬國數據提供容災咨詢、虛擬主機租賃、基礎設施及設備運維服務??萍夹畔⒉客蹒妗O宏祥、薛鋒于2011年現場參觀了該數據中心。
蘇州國科蘇州園區數據中心(簡稱SISDC):該數據中心物業產權歸屬于蘇州工業園區政府,是為園區外資企業服務的基礎設施服務平臺,位于蘇州市工業園區,距離我行約130公里,建設標準為T4級(國際標準ANSI/TIE-942-2005中最高級別),機房面積約為1.2萬平方米。該中心目前托管外包運維了已有近八十家國際大型外資企業的IT基礎設施設備。
無錫國際數據中心:該數據中心物業產權是中國電信無錫分公司,位于無錫市濱海區,占地65畝,距離我行約70公里,按照T4級標準建設,機房面積約為1萬平方米。該中心目前托管外包運維了近百家企業及金融機構的IT基礎設施設備(托管了江蘇銀行異地數據級災備設備)。
泰州電信云計算中心:該數據中心的物業產權歸屬于泰州市醫藥城管理委員會,電信泰州分公司租賃該建筑并建設了該數據中心提供外包服務。位于泰州市海陵區數據大廈,距離我行約70公里,總投資約為8000萬元,機房面積約為2000平方米。該中心目前托管運行泰州社保局、泰州市地稅局等二十多家機構的IT基礎設施設備??萍夹畔⒉客蹒妗⒀︿h于今年4月份現場參觀了該數據中心。
靖江電信公司機房:該數據中心的物業產權歸屬于靖江電信公司,位于靖江人民路,距離我行約1.5公里,機房面積約為400平方米。大樓承重、供電、接地防雷設施的建設標準較高,但內部設施陳舊,托管了幾家靖江地區的網絡公司設備,靖江電信公司計劃于近期對該數據中心重新裝修。
通過調研上述個IDC外包數據中心了解到,上述機房中,萬國數據蘇州、蘇州國科、無錫國際數據中心機房的建設標準非常高,泰州電信云計算中心機房相比較上述三家稍有差距,上述四家機房都能滿足我行災備系統設備運行條件,也能滿足監管機構對于機房建設標準的要求。并且上述四家公司均能提供場地外包、虛擬主機租賃、基本的設備運維服務。所有服務商均不提供應用軟件、數據庫系統的運維服務。靖江電信公司機房若能按照較高標準重新裝修,也可以考慮做為同城災備機房。
三、可選擇的同城災備復制技術
災備系統的關鍵復制技術,就是將生產中心的數據,完整、完全、及時地復制到災備中心的復制工具。選擇何種復制技術,將決定災備系統的RPO值。通過與同業金融機構交流和溝通,目前應用比較多的技術包括以下幾大類。
(一)、基于存儲設備的底層復制技術
這是國內金融機構最常見的同城容災復制技術。由存儲廠家提供專用的底層技術及軟件,實現生產中心存儲設備與災備中心存儲設備的直接鏡像,將數據以同步或異步的方式復制到遠端。距離較近時,多采用光纖方式連接,距離較遠時采用網絡連接時,就只能實現數據異步方式復制。省內其它金融機構,如南京銀行、蘇州銀行等,同城應用級災備系統用的就是EMC公司的SRDF存儲底層同步復模式。
優點:該復制技術的日常管理極為方便,數據復制穩定,對主機系統的資源沒有影響,同城采用光纖時可以做到數據實時同步零丟失,該技術非常成熟并且應用廣泛,實施同城災備使用的效果最好。
缺點:必須在本地端和災備端分別配置兩套相同品牌的存儲系統,軟硬件投資較高,若實施同步模式必須使用光纖連接并距離不能超過40公里,數據同步對生產端的存儲性能有影響。
(二)、基于存儲虛擬化的復制技術
隨著存儲技術的發展,為災備系統建設提供了多種可選的容災技術。存儲虛擬化復制這是近年來興起的一種容災技術,該技術通過安裝在服務器或專用裝置上的軟件,對存儲設備進行虛擬化進行統一管理及遠程復制。
優點:實施成本相對較低,能兼容不同廠家的存儲設備。由于對存儲實施了虛擬化管理,存儲資源池的鏡像、擴容、復制等操作管理異常簡單。
缺點:需要專用的設備或帶復制功能的SAN交換機,對網絡要求較高。并且存儲虛擬化的廠商和標準較多,該技術更換換代發展迅速。若要實現數據同步復制,就必須使用光纖連接且距離不能超過40公里。
(三)、基于數據庫的復制技術
基于數據庫的容災技術主要是指是數據庫層面的復制軟件,通常采用日志復制功能,依靠本地和遠程主機間的日志歸檔與傳遞來實現兩端的數據一致。該技術與存儲類型以及主機服務器平臺類型無關,有較好的靈活性。
優點:軟件成本較低,部分軟件免費。復制數據占用的網絡帶寬較小,災備端的數據庫隨時可用。
缺點:每一個數據庫均需要安裝一套復制客戶端,占用部分生產系統數據庫資源,實施和維護成本較高,數據復制日常管理維護非常麻煩,并且有丟失數據的可能。而且只能復制數據庫,虛擬化環境和主機操作系統還需要使用其它方式進行遠程復制。
(四)、復制技術選擇和災備距離之間關系
每種容災復制技術都有自身的技術特點和應用局限性,數據復制技術的選擇,都會對災備系統最終效果以及基礎設施架構造成重要影響。但生產中心與災備中心之間的距離,決定了采用何種網絡方式連接以及帶寬,并對數據復制技術的選擇有決定性的影響。通過與多家集成公司交流,有以下幾點經驗:
1、不管基于什么技術方案,數據復制都是依賴網絡,網絡帶寬可以不斷的擴大,而光纖網絡隨著距離的增長帶來的延時問題是物理學上的限制,現階段無法解決。
2、若要實現同城災備中心數據與生產中心數據同步,兩個數據中心之間必須有非常高的網絡帶寬,一般使用裸光纖連接,并且由于光的延時問題,光纖距離不能超過40公里。
3、同城應級級災備建設中,數據實時同步的復制技術一般采用存儲底層復制或虛擬化復制,數據庫復制技術由于對維護人員要求很高,后期維護工作量大,故較少使用。
綜合上述分析得知,根據上述的災備數據中心距離決定了數據復制是否同步所以,我行的同城災備項目若實現數據實時同步,災備中心與生產中心當距離必須小于40公里,并且兩中心使用祼光纖連接,根據前文中對周邊地區機房資源情況的調研,只有靖江電信機房在距離方面符合要求。
三、我行同城應用級災備中心項目建設思路
(一)、建設必須能有效接管的應用級災備系統
根據董事會和行領導的要求,我行建設的同城災備系統為應用級,該災備系統建設完成后,我行將能使用該系統進行業務真實切換,防范生產中心發生的災難事故風險,而不是僅僅只是為滿足監管的要求。
(二)、做好前期的規劃工作,兼顧技術發展趨勢,采用先進成熟的技術
近年來,主機虛擬化、存儲虛擬化、云計算、分布式架構等IT技術發展非常迅猛,隨著云計算技術發展和應用的深入,未來的生產和災備中心很可能都將在基于云來建立,大部分企業都不再需要單獨建立數據中心。所以,我行的同城應用級災備項目實施過程中,應分析上述技術在我行災備系統建設中的落地使用,應綜合考慮整體基礎設施和技術架構,通盤考慮現在信息系統基礎架構的遷移改造,生產和災備系統的應能滿足未來互聯網金融平臺易于擴展、易于管理、快速部署、高度冗余等要求,采用較先進成熟的技術實現應用級災備,考慮到我地將在新大樓內建立新數據中心,本次同城災備系統的技術選型,應為今后兩地三中心模式和雙活數據中心建設過渡打好基礎。
(三)、綜合考慮投入產出比,建設適合我行的災備系統 建設災備系統需要周密規劃,除了要考慮技術實現外,還要考慮各類業務的不同需要;除了考慮資源投入外,還要考慮產出和利用;除了考慮通用的災備模式,還要考慮自身的技術和管理能力。總之,沒有所謂最好的災備系統,只有最符合自身需要的災備系統。
目前,國內銀行在進行災備體系建設時一般有自建和外包兩種模式,各有優缺點。自建具有較高的可靠性與安全性,但投入大、周期長,對銀行技術人員的能力要求較高,適用于大型金融機構。外包是指由專業服務商提供基礎環境外包和設備運維服務,此模式的投入小、周期快,對銀行人員能力要求相對較低,適用于中小型金融機構。項目組認為,在我行現有的技術能力和資本規模情況下,選用外包模式應是比較好的選擇。
(四)重視災備管理體系建設
災備系統建設只是提供了技術和設備上的保障。災難情況下,災備中心可將信息系統恢復,但是行領導的決策和組織、監管機構的報告和指導、相關部門的有效溝通和協調、業務數據的完整性檢查和交易補錄、各個條線業務部門有效業務恢復預案和相應的演練驗證體系也同樣重要。隨著災備建設的逐步完善和演練等多作的開展和深入,只有所有相關人員都掌握相應的預案和流程,把災備和業務連續性當作常態化工作,才能真正保障在災難和系統嚴重故障時,整個業務連續性體系有效運作和快速恢復。所以,災備系統能否取得預期的效果,災備管理體系的建設是非常重要的,項目組需要制定切實可行的應急預案、詳細的業務連續性計劃,需要行領導班子的高度重視、相關業務部門的積極參與和掌握,保證在生產中心停運后,各個方面能各司其職、有效組織、高效協同地完成業務恢復。
四、應用級災備建設前的工作
目前我行的基礎技術架構于2011年制定并部署,五年以來基本沒有經歷大的變更升級,隨著近期互聯網平臺應的大量批量上線,同城應用級災備的規劃實施,都需要對我行現有主機資源、存儲資源、網絡管理、網絡安全等基礎架構進行大范圍的優化調整改造,以滿足業務部門不斷快速增長的計算、存儲、網絡和安全要求。
我行應用系統之間的基礎資源相對獨立,不能實現共享、整合計算和存儲資源,安裝、部署新服務器、存儲和應用所需的時間長,不能靈活快速地對新的業務需求做出響應,復雜的 IT架構和大量的服務器也讓運維人員力不從心。由于大量使用物理主機,設備管理員也無法迅速為負載大的應用服務器動態增加 CPU和內存資源。
項目組通過與多家公司分析了現有的系統架構后認為,云計算技術可以極大提升我行IT資源管理水平,隨著云計算等技術在互聯網企業和金融機構部署應用表明,云架構是金融機構IT基礎設施的必然方向,主機的虛擬化、存儲虛擬化實施部署是云計算落地應的基礎。在我行災備項目實施前,建議可以先行實施主機虛擬化整合、存儲虛擬化(云存儲)集中化整合、主機地址域名化整合、全行計算機域控制器管理、網絡安全檢查規劃工作。
(一)、主機系統虛擬化整合(云計算)
主機虛擬化是建設企業私有云平臺的第一步,我行于2015年底通過實施管理系統主機虛擬化平臺,取得了非常良好的效果,隨著網貸平臺等系統對主機資源的大批量需求,我們認為實施數據中心主機虛擬化整合是非常必要的,意義如下:
(1)解決了我行現有機房承載能力不足問題,并能極大減少了服務器采購及投資??萍疾咳ツ晖ㄟ^實施管理平臺主機的虛擬化項目,已將15臺物理主機退出了生產,只使了三臺服務器進行了替換,若未來完成核心區和外聯區服務器虛擬化整合,將減少約40臺物理機設備,節省了大量的能源、空間和成本。
(2)極大地提高了服務器的高可用性、安全性、資源利用率和擴展性。物理主機故障后,集群切換時間約為3分鐘,而虛擬化主機集群切換時間約為秒級,并且主機資源利用率也大幅提高。虛擬化把資源切割為更小的、可以更好調度的資源單位,以達到調度過程中充分利用硬件資源的能力,從而使金融業數據安全性得到增強、信息共享速度得到加快、服務質量得到提高、運營成本得到降低等。
(3)極大地提高了運維管理效率,提高數據承載能力和處理能力。主機虛擬化部署后,使運維人員能夠從業務需求出發,快速按需配置所需要的資源,生產開發測試環境的操作系統、數據庫、中間件的安裝均可以實現幾分鐘內完成,這極大地提高了運維人員和開發測試團隊的工作效率。
(4)主機虛擬化可極大簡化同城災備的實施和管理難度 由于我行現階段管理系統服務器均采用了物理機,大部分采用熱備或冷備方式,現有的架構下,災備端也必須配置相同數量的服務器,實現同城操作系統級復制的代價高昂,實施備份和災備的難度較大。生產中心的物理設備故障后,災備中心恢復生產系統的難度非常大,所需恢復業務的時間也較長。通過實施主機虛擬化,生產與災備中心主機操作系統可以做到即時同步,災備中心的主機可隨時啟動接管應用。
(二)、存儲系統的虛擬化或集中化整合(云存儲)根據董事長的總體部署,微利貸、網貸平臺等互聯網應用的快速上線,打造一個線上的長江銀行的戰略正在逐步推進,可以非常明確的是,今后我行業務數據量將快速爆發式地增長。
我行現有3臺中端存儲陣列有,其中2臺為IBM-DS5100(核心、重要應用、管理系統使用),1臺是華為5500V3(管理系統虛擬化使用),為網貸平臺等系統上線時,需要對兩臺DS5100存儲進行一次擴容,為了同城容備以及后續數據量的爆發式增長,需要在災備實施過程中將存儲進行統一整合,通過存儲集中化或者存儲虛擬化方式解決容量不足和數據復制問題。
(三)、主機的地址DNS域名化整合
DNS(Domain Name Service)它的作用:將域名翻譯成IP地址。這樣用戶在瀏覽器中輸入域名,通過DNS知道用戶請求的目標服務器,然后才將對應的內容返回給用戶。
另外,DNS系統還可以為災備提供支持,簡化災備流程,縮短業務恢復時間。部署DNS系統能全面規范行內主機IP地址及域名的管理,推動IT系統訪問的規范化,方便應用系統的部署和變更,從而保證應用系統在遷移過程中的訪問連續性,降低系統切換的風險。
(四)、全行計算機域控AD管理
我行現在的辦公計算機是分散的管理模式,每一臺計算機都是獨自自主的,用戶賬戶和權限信息保存在本機中,同時借助工作組來共享信息,共享信息的權限設置由每臺計算機控制。域管理就是通過域控制器來管理域中的計算機,實現的是主/從管理模式,通過一臺域控制器來集中管理域內用戶名和權限,用戶信息保存在域控制器內,共享信息分散在每臺計算機中,但是訪問權限由控制器統一管理。通過域控方式管理全行員工電腦有以下好處:
1、基于AD域模式可以實現了集中式管理,以前在每個員工的客戶端要重復多次的設置,只要在域控制器上做一次設置就可實現,極大地減少了管理員的工作量。
2、原來是工作組每個人都是本地計算機的管理員,但在在域模式下,普通的員工對于客戶機的權限很少,失去了對辦公計算機的控制。
3、AD是一個大的安全邊界,員工只要在登錄時驗證了身份,這個域中所有允許訪問資源都可以直接訪問,不用再做身份驗證,提高的效率減少了維護成本,為今后統一身份認證打下基礎。
4、每位員工都能通過文件夾的重定向把重要文件存放至服務器上,重要文件可以實現集中備份,不用擔心客戶端重裝和故障造成文件丟失產。并且,員工在域中任何計算機登錄都可以找到自己的文檔,實現文檔跟隨著用戶的走。
五、項目總體推進計劃
災備系統建設是項龐大的系統工程,涉及面廣,技術難度大,建設周期長。災備體系建設的每一項任務,都需要我行科技部門和各業務部門的充分配合,項目總體推進計劃如下。
(一)、完成基礎設施的資源規劃整合工作
1、計劃在五月底前完成主機虛擬化平臺的規劃、設備采購、集成實施工作。
2、存儲整合規劃由災備咨詢項目,通過后續災備設備的采購,實施我行的存儲集中整合。
3、建議5月份搭建完成全行的DNS域名管理系統,后續上線的所有應用必須通過DNS解析方式訪問。
4、建議6月份搭建完成全行的AD域控系統,后續通過2~3個月的時間整合實施,將所以員工計算機納入域控管理。
(二)、完成同城應用級災備建設咨詢
項目組及時啟動同城應用級災備中心的規劃咨詢和方案制定工作,項目組已與萬國數據公司、北京容之聯公司、清華紫光、華為等多家大型集成服務公司進行了交流,計劃于五月下旬完成咨詢合同的簽署,八月下旬咨詢工作完成,咨詢公司的主要工作內容如下:
1、全面梳理調研我行的應用系統現狀,研討制定重要應用系統的RTO及RPO值,確定同城應用災備范圍。
2、根據應用系統的RTO及RPO值,參照全行現有數據量及增長估算,并結合行業技術發展趨勢,提出我行應用級災備系統的關鍵復制技術建議。
3、制定我行應用級災備中心整體具體建設集成方案,包含現有系統架構資源的整合改造規劃,災備中心設備配置建議清單。
4、提出我行災備中心的管理組織架構建議,幫助我行建立災備中心日常運維管理體系、災難應急恢復處置體系。
(三)、完成咨詢成果的內外部評審
計劃在咨詢工作完成后,科技部將組織行領導、各相關部門負責人以及外部專家對咨詢成果進行內部評審。并邀請省市銀監管機構專家對該方案進行評審,聽取相關領導的意見和建議。
上述工作計劃在災備咨詢結束后一個月內完成。(九月下旬前)
(四)、完成系統整合改造和設備集成實施
同城應用級災備建設方案得到董事會和監管機構認可后,隨后進入后續的建設實施階段,計劃于年底前完成總行生產中心基礎架構的改造,年底前完成災備中心設備采購。2017年一季度完成災備中心網絡、主機、存儲系統設備的集成實施工作。
五、綜述
1、我行同城災備系統復制技術選擇和最終實施效果,生產與災備中心之間距離是核心關鍵制約因素。
2、為承載新增的網貸平臺等大量集中上線的應用系統,降低同城災備實施和管理難度,計劃將于近期實施主機虛擬化整合,增加虛擬主機和存儲資源。
3、建議盡快實施全行的DNS域名管理系統、AD域控系統,在我行現階段實施比較容易,實施費用也非常低,否則服務器主機大量增加后,實施的難度和代價將非常高昂。
科技信息部 2016年4月25日
第四篇:專業工程技術-災備中心建設項目建設目標(精心整理)
災備中心建設構想
根據國務院《住房公積金管理條例》相關規定和有關文件要求,全國各省市、自治區、直轄市和計劃單列市、新疆生產建設兵團共有330多個住房公積金管理中心,鐵路、電力、煤炭、石油、中直機關、省直機關等行業機構也成立了幾十個分中心,這些中心和分中心都建設了自己住房公積金信息管理系統,但是,所有中心、分中心的信息系統的容災備份基本尚屬空白。個別中心在原有信息系統基礎上建設了小規模數據備份系統,也有個別中心提出了中心之間數據互備的設想,但是,都沒能達到災備的標準和要求。
全國各中心住房公積金信息系統現狀概述:
1、各中心均有自己的信息系統。
2、各中心信息系統投入投入差異較大,粗分為五個等級: A級:有上億元的投入,如深圳;
B級:有數千萬元的投入,如北京、上海、昆明、武漢、廣州、長春等;
C級:一般省會城市和副省級城市的投入多在千萬元以上; D級:再退一步,像鄭州這類城市中心,投資規模多在幾百萬元。
E級:一般地市中心的投入多在幾十萬至一、二百萬不等。
3、主機系統:少數中心選用中型計算機,如A級、B級中心; 較大規模中心(如B級、C級、D級)選用小型計算機;一般中心(如D級、E級)多選用PC服務器。
4、操作系統:操作系統也是差別較大,有hp、IBM的UNIX系統,也有SUN公司的Solaris,還有WINDOWS系統。
5、數據庫系統:多數為ORCALE,也有Sybase、DB2,使用SQLServer的中心也不少。正版和盜版也是同時存在,大中心肯定用正版,多數小中心會用盜版。
6、應用系統:全國各中心的應用系統差別也非常大。做公積金管理軟件的單位有東軟、金軟、北京金天鵬、深圳恒泰豐、西安金房子等等。也有自行組織開發的中心,比如鄭州、開封等中心。
我們將根據不同中心的主機系統、數據庫系統、操作系統、網絡系統、存儲系統等現現狀,建設全國性的住房公積金容災備份中心。
建設目標:
構建滿足全國住房公積金管理機構的容災備份中心,為其提供高性能、高可用性、高擴展性、高安全性的硬件架構、軟件平臺及技術支持,滿足各住房公積金管理中心數據遠程備份的要求,確保其數據安全。
具體建設目標包括:
1、提供數據打包存儲服務:面向對象為信息系統規模小、規范程度差的中心。
2、核心系統運行服務:面向對象為經濟發展較差地區、無條件建設規范化住房公積金信息管理系統的中心。
3、數據級容災服務:面向對象為信息系統較為先進、災備投入較小的中心。
4、系統級災備服務:面向對象為信息系統先進、災備投入較大、災難恢復要求時間較短的中心。
5、應用級災備服務:面向對象為信息系統先進、災備投入較大、災難恢復要求時間極短的中心。
以上災備級別,基本能夠滿足當前各地住房公積金管理中心的災備需求。
災備中心還應達到或接近以下條件:
1、交通便利:飛機、火車、汽車均能順利到達。
2、選址安全:地質結構穩定,發生特大自然災害的幾率小。
3、建筑物穩定:災備中心的建筑物達到規定的抗震要求。
4、供電保障:災備中心具有充足的電力資源。
5、通訊資源充沛:災備中心必須接入多家運營商的通訊電路。
6、技術先進:災備中心必須吸納當前最新技術成果。
7、管理運行規范:按國家標準進行運營管理。
8、滿足需要和發展:滿足當前需要,支持未來發展。
9、滿足技術交流:災備中心具備技術的交流的功能。
10、長效機制:生活方便、環境優美、協調統一。建設任務:
建設完善的機房環境,構建良好的主機系統、存儲系統、網絡系統、安全體系及數據容災備份體系,為全國住房公積金管理中心構筑可靠、高效、易用的災備平臺。
運用現代信息技術手段,將全國各住房公積金管理中心的業務數據或信息系統,集中遠程備份。
建設原則:
一、先進性、標準化
采用先進成熟的技術和設計規范,保證系統能夠高效、穩定地運行,結合當前住房公積金信息化應用情況,選用符合國際標準的技術和產品,保證系統的標準化和一致性,并保證在以后的發展過程中能夠適應信息技術的發展趨勢。
二、經濟性、實用性
根據災備中心的實際應用需求進行方案設計,選用性價比高的設備,建設一流的災備系統,既能夠滿足住房公積金業務系統容災的應用需求,又能夠適應將來應用的擴展,系統應該能夠方便地升級,并能夠保護原有的投資。
三、高可靠性
在系統設計特別是關鍵點的設計中,選用高可靠性產品,并有合理的冗余和可靠的系統備份策略,保證系統具有故障自愈的能力,確保系統可靠運行。
在充分考慮技術先進性的同時,還要從系統結構、技術措施、設備性能、系統管理、廠商技術支持及維修維護能力等方面著手,確保系統的高可靠性,達到最大的平均無故障時間。
四、高開放性
采用符合OSI(開放系統互聯)標準的技術和通信協議,采用符合ISO(如IEEE、ITU-T、ANSI等)標準的相關協議,采用國家標準和國際標準的網絡規范,結合省內、國內各地住房公積金信息系統情況,充分考慮硬件環境、軟件平臺的兼容性,使得符合國際標準的不同廠商的產品可以無縫地添加進來。
五、高安全性
災備中心必須具備足夠的安全性,具有有效的容災、容錯等風險保障機制,能夠防止來自系統內部惡意破壞及來自外部的惡意攻擊,能有效防止因人為誤操作帶來的影響,采用有效的安全防范措施和安全手段,保證系統的完整性和機密性,并對信息訪問和系統操作提供有效的權限認證,對雷擊、火災、盜竊等意外以及人為誤操作等不可預知的問題,具有良好的預防和恢復機制。
六、高性能
災備中心設計中,必須保障服務器、網絡及各種設備的高吞吐能力,保證各種信息(數據、語音、圖像等)的高質量傳輸,構建高質量的可服務于圖像、語音、數據的綜合網絡系統,為關鍵業務提供QoS(Quality of Service)保障。
七、可擴展性
災備中心采用的實現技術和產品必須標準化,系統結構及設備易于擴展,技術和產品發展具有良好的可持續性、可擴充性,將來能夠方便平滑地對原有系統進行升級和更新。
八、靈活性、兼容性
選用符合國際發展趨勢的國際標準軟件、硬件、網絡等技術,以便系統具備可移植性、高可靠性等優點,以便在將來發展中延伸采用最新技術,同時,為不同的現有設備提供互聯手段,保證現有各種住房公積金信息系統的順利接入。
九、結構的合理性
采用合理高效的系統結構,設計的系統結構應能合理安排冗余和負載,實現有效的流量控制和負載均衡,能夠避免網絡風暴和數據瓶頸,確保系統暢通運行,并能適應災備中心業務發展的需求。
十、低碳、綠色、環保
綠色數據機房(Green Data Center)是指數據中的IT系統、機械、照明和電氣等,能取得最大化的能源效率和最小化的環境影響。
容災備份中心規劃設計,必須引入低碳、綠色、環保的理念,以降低電耗成本,提高資源利用率。包括空間大小的合理性、結構布局的合理性、設備冗余的合理性、引進刀片式架構、增加虛擬服務器、選擇節能產品、風冷與水冷結合技術應用等具體措施。
第五篇:災備建設的四大誤區
災備建設的四大誤區
來源:中國計算機報
2010年08月24日11:44 我來說兩句(0)復制鏈接 打印
大中小
作者:郭濤
企業只要投巨資建設了災備系統,以后就不會再出現業務中斷和數據丟失了嗎?其實,災難備份/恢復與業務連續性有很大的差別,不能將兩者混為一談?!皩膫涞腻e誤認知是導致災備建設失敗的重要原因?!盓MC公司資深業務連續性咨詢顧問許瑀表示。
容災不等于業務連續性
一些企業領導的固有思維是:容災與業務連續性是一回事,只要擁有了災備系統,就不應該再出現業務的停頓。其實,災難備份主要用于應對較大的災難事件,而不是針對局部的事故。業務連續性的概念更寬泛,無論是局部的故障,還是重大的災難,都不能使業務中斷。
許瑀表示:“災難備份是業務連續性的基礎,是企業多層次信息保護體系的重要組成部分。為確保業務連續性,企業應優先考慮建設基本的災難備份和恢復系統。在?9·11?災難事件中,美國世貿中心里數百家沒有災難備份系統的公司徹底消失了。這充分體現了災難備份作為企業信息架構基礎組成部分的重要性。在建立了完善的災備系統后,企業可以考慮構建多層次的信息保護體系,進一步提升業務連續性水平?!?/p>
由于投入的資金數量不同,信息基礎設施的狀況不同,災備建設的思路不同,不同行業的用戶在建設災備系統時,很難遵循一個統一的策略。不過,企業在建設災備系統時應遵循這樣一個原則,即無論采用何種技術手段,都必須保證數據的安全。這是災備建設的底線。
重異地災備 輕本地保護
“實際上,導致信息系統出現中斷,97%的原因是物理設備故障和系統的邏輯錯誤,只有3%的業務中斷是由大災難引起的。”許瑀分析說,“本地數據保護與異地災難恢復都非常重要。有的用戶認為,只要建設了異地災難恢復系統就能抵御所有的災難,因此忽視了本地的數據保護。這其實是一個誤區?!?/p>
許瑀舉例說:“某用戶的磁盤出現故障,由于換盤時的錯誤操作導致了核心數據庫的損壞。該用戶利用本地備份系統恢復數據,恢復時間長達一周,而且丟失了兩天的數據?!庇杏脩裘つ孔非筮^高的異地災難恢復RTO和RPO指標,要求RTO小于4小時,RPO小于15分鐘。但事實上,該用戶在進行本地數據恢復時,RTO大于1天,RPO為24小時。用戶投巨資建設災備系統,卻不能減少因本地故障帶來的損失,這其實是本末倒置。許瑀認為,只有將信息系統的本地數據保護和異地災難恢復相結合,才能構成完善的業務容災體系。本地數據保護與異地災難恢復防范的風險不同,因此采用的技術手段、機制和措施也不一樣。有些需要面向公眾提供服務的系統,對災難恢復的時間要求十分嚴格。但是大多數信息系統對災難恢復等級的要求并不太高,通??梢越邮軒仔r的災難恢復時間。對于大多數用戶來說,最重要的不是恢復時間的長短,而是數據能夠100%被恢復。
RTO、RPO指標過高
在建設災備系統的過程中,RTO和RPO是兩個非常重要的指標。那么,RTO與RPO的數值是不是越小越好呢?“某銀行針對其網上支付業務建設災備系統時,提出系統恢復時間小于30分鐘(即RTO小于30分鐘),只能丟失5分鐘的數據(即RPO小于5分鐘)。”許瑀表示,“我看到用戶的RTO和RPO指標要求時,第一感覺就是這不現實。因為銀行的系統出現故障后,為了恢復數據,技術人員通常要根據日志對活動賬號進行分析,而所有的日志分散在多個業務系統中,處理這些日志可能要采用手工方式。完成上述一系列步驟,銀行至少要花費一兩個小時的時間。”
企業在制定災備恢復的目標時,一定要從業務的實際需求出發,不能盲目追求過高的RTO、RPO指標。過高的RTO和RPO指標不僅會增加災備建設的成本,而且會讓用戶迷失在數字游戲中,對業務的保護無益。
忽視日常的運維管理
“2007年,某公司的核心業務系統發生意外宕機,多個關鍵業務數據庫癱瘓。公司領導決定啟用同城災備系統。但是在進行恢復時,技術人員發現,容災端數據嚴重滯后于生產端數據,災備系統根本無法啟用?!痹S瑀舉例說,“事后,人們在追查原因時發現,由于系統管理員在進行災備端測試時中斷了災備數據的復制關系,測試完成后又忘記了恢復災備數據的復制關系,從而導致災備系統無法啟用。”
在某些企業中,災備系統完全成了擺設。平時,這些企業的技術人員不對災備系統進行定期檢查,而且忽視了災備演練。因此當災難發生時,災備系統很難發揮作用。中金數據系統有限公司高級副總裁陳天晴告訴記者,他們曾經按照合同要求為某客戶提供災備演練服務,但是客戶的相關人員總以工作忙為由推脫,造成服務合同遲遲不能履行。許瑀表示:“企業在建成災備系統后,應該定期進行災備演練,并建立完善的業務連續性計劃(BCP),包括詳細的災難恢復計劃及本地恢復計劃等。
(責任編輯:王亞紅)