第一篇:BI系統總結
團委引進CI的原因:
? 明確團委組織文化建設
? 增強團委對外的影響力,建立團委品牌,使我們更
方便、更有效地為同學服務。
? 營造團委內部的團隊凝聚力
? 規范團委的制度與行為
? 傳承團委優秀傳統和工作經驗,規劃發展戰略。BI:行為識別:置于中間層位的BI則直接反映組織理念的個性和特殊性,是組織實踐管理理念與創造組織文化的準則
.BI(Behavior Identity)行為識別系統
工程學院團委的幫事宗旨應始終圍繞團委的口號
“團結、高效、求真、務實”
一個組織的特色并不是體現在它的宣傳上,而是體現在其特有的組織文化上,而其行為則直接體現其特色,BI系統不僅適合于現代企業,其特有的組織先進性也適合在其他組織上,工程學院團委經過長時間的探索,逐漸形成其特色的BI系統,以下主要體現在對內與對外兩個方面。
? 對內:組織制度、干部教育 項目管理 工作環境 行為規范、經驗傳承成員發展、總結規范等
? 對外:活動策劃 公共關系、第一,團委干部公共禮儀素質
(1)講規則是根本:著裝要求,社交談吐;公共環境;電話和名片的使用
(2)懂處事是核心:與人方便,同己方便;與人講話,看人臉色;與人美言,可免百憂;微笑是打開心鎖的鑰匙;情比理更能打動人的心弦
第一,團委干部公共演講素質:用大腦想話;用語言傳話;用身體融話
第二,團委干部公共策劃素質:把想到的記下來;按記下來去實踐;把做過的總結起來
1.組織制度:“無規矩不成方圓”。春秋戰國時期,正是法家的法派商鞅使秦國 1
走向強大,終而一統天下。由此可見,沒有制度,無以成組織。制度化有利于團委日常工作的開展。《共青團華南農業大學工程學院委員會章程》是團委所有干部的最高行動指南,還有《辦公室管理制度》《項目管理制度》《請假制度》《會議制度》《干部績效考核制度》《先進團支部評比條例》等規范團委成員的日常工作。
(一)制度(節選)
《共青團華南農業大學工程學院委員會章程》
1.團委會在校黨委的直接領導下,開展各項有益于學生學習和身心健康的活動,促使學生
德、智、體、美、勞全面發展。做優秀團員入黨的推薦、培養、考察工作。
2.團委宗旨:以“團結、高效、求真、務實”為原則,以服務廣大同學為宗旨,以馬克思
列寧主義、毛澤東思想、鄧小平理論和“三個代表”重要思想為行動指南,以科學發展觀為指導方針。團委意識:創新意識,服務意識,學習意識,奉獻意識。
3.發揮黨聯系青年的橋梁和樞紐作用。關心學院廣大同學的學習和生活,切實為同學服務,及時向上級反映同學的意見和要求。
4.積極參與和配合學院搞好團組織工作和學生會組織工作,致力于學生管理;帶動全院學
生活動,組織全院學生學習黨、團的思想,致力于把全院學生培養為有理想、有道德、有學問的、具備綜合素質的優秀學生,為國家、為社會培養國家之棟梁,有用之才。要發揚團的優良傳統和先鋒作用,富于創造性地開展工作,把工程學院團委建設作為教育青年團員的堅強核心。
2.干部教育:
A:每一位團委干部都應該關注社會形勢發展,接受團務教育和素質培訓,不斷提高辦事的效率和質量。
B:平常應多一點向上一屆的團委成員請教,向老師討教等。
C:在平時的工作中多思考,多學習,充分利用網絡、圖書館、往屆團委資料光碟,積累有經驗的前輩傳承下來的底蘊。
D:多一點與本學院的學生組織交流,相互交流與學習。
E:可以以學院團委的名義,與兄弟學院的團委或其他組織進行經驗交流和相互學習,以達到共同進步的目的。
3.項目管理:就是在有限資源的約束下,運用系統的觀點、方法和理論,對項目涉及的全部工作進行有效地管理。項目化管理是以培養干部的創新精神和實踐能力為目的的,并在團委的宏觀政策指導下,通過對每個活動和每件工作實行專人總負責,專人總管理的方法,使各方面的人力、物力、信息、資金等多方面資源達到最優配置的一種學生工作運行方式。項目化管理為學生干部搭建成長的平臺,給他們留下自我發展的時間和空間
項目管理辦法:
(1)、成立籌委會時,負責人必須盡可能收集多關于項目的資料
(2)、籌委會必須于活動開展前向副書記提交初步策劃意向書
(3)、獲得批準、并結合老師意見后完善活動的具體策劃書,工作開展
(4)、活動進行過程中,籌委會必須定時向副書記匯報情況
(5)、活動后籌委會內部必須2天內向負責人匯報財政狀況
(6)、活動后必須于3天內向副書記上交財務清單,副書記也應在一周內進 行結余
(7)、活動后5天內必須向副書記和秘書部提交電子版詳細項目總結報告
(8)、在完成財務結余和總結審核后,籌委會正式解散
附錄:《辦公室管理制度》
1、辦公室作用:(1)日常辦公場所(2)來訪同學的“窗口”(3)存放團委學生會檔案
辦公室管理人員:秘書部
辦公室地址:工程學院北樓3082、值班時間:周一至周五:上午10:00-11:30,下午4:30-6:00
值班組長:每日秘書小組值班人員
值班人員的要求:準時值班,不缺勤或早退,請假必須提前一天找人替班并告知當日值
班組長。到位后及時填寫值班記錄。儀表穿戴整潔,佩帶工作證,熱
情待人。服從當日值班組長指揮。離開辦公室需關閉所有電器、關好
門窗。
3、檔案管理:檔案要一式兩份,一份為電子版存于辦公室電腦,文件檔案分類存放入各類
文件夾。團委學生會成員經值班組長同意方可就地查閱。若需外借或拷貝電
子版需值班組長同意并登記,外借期限為2天。
4、電腦使用制度:嚴禁用于私人用途。電腦D盤為各類檔案,嚴禁在負責人統一整理之前刪除任何檔案。工作環境:一個組織運行的高效與良好,離不開一個良好的工作環境。快樂的團隊成員是工程團委的財富,和諧的團隊文化是工程團委的靈魂。
團委的工作環境應該體現出人文關懷,成員間互愛互助
A:組織關心成員:在成員生日時送上誠摯的祝福,營造一種大家庭氛圍
B:組員相互幫忙:當組員有困難時,大家盡力幫助,助人度難,以增強團委組員的凝聚力,創建一種和諧的環境;
C:部長熱心對待干事:當干事做錯事情時,部長們應熱心幫忙糾正,體諒干事。D節日組織一些文體活動:如在中秋節組織不會家的成員們一起歡聚等行為規范:
A:團委成員工作期間必須佩帶工作證,大型活動或集體工作期間必須穿上團委工作服。
B:團委成員在出席工作會議時應該具備兩樣道具:筆和筆記本。會議中禁止玩手機、交頭接耳,手機應調置靜音狀態,保持會場肅靜
C:平常接到領導的工作指示或安排時,應嚴格執行,按時完成,完美完成。
D:組員見面時要相互問好。
E:在工作期間組員們要認真嚴肅,切勿大喊大叫,亂走亂跑。
F:在日常工作中,應待人以禮,助人為樂,尊師為重。
G:在行為規范中,符合大學生行為準則是前提,一切行為規范都以其開展。H:大家應該懂得互相尊重,用微笑去真摯交流。
I:參加工作會議時,避免缺席、遲到、早退現象。按會議要求提前10分鐘進場,如有事不能參加會議,應事先按團委規定逐級辦理請假手續;在完成上級組織下達的工作任務時,應充分理解工作內容,常常向組織匯報工作進度,保證工作的銜接;任務實施時,遇到疑問和同事或組織商量。
6溝通規范:
團委成員信息溝通應該為“雙向高效”溝通。
A:“雙向”是指上級布置工作時對下級的耐心指導和經驗傳承和下級向上級匯報工作是的工作總結和心得體會。
B高效”是指工作要定量化,在分工合作的模式下按時甚至提前完成工作。但高效并不代表只追求快而忘了質量,團委的高效應該是在高質量的前提下追求快。
C:團委委員的通知由秘書部負責,團委小組成員的通知由所屬部門負責。
7成員發展:
團委成員的培養采取直接上級負責制,直接上級要注重下級的發展,進行隨時隨地隨事地培養。
A;對于團委部長級以上干部建議選修管理學課程;對于團委全體成員進行系列培訓,由秘書部負責安排,由各個部門直接培訓。
B:團委成員作為學生干部,更應該懂得在日常工作中總結經驗,自我學習,不斷提高為人民服務的悟性。
C:在工作中,團委成員要積極開展批評和自我批評,不斷完善自我,完善團委。D:謙虛地向有經驗的同學或老師請教。
E:懂得利用圖書館或網絡的知識,解決工作中的問題。
8經驗傳承:
團委每完成一個項目,應該通過系統總結,將經驗以文字記錄或光盤的形式傳承下來。不斷經驗積累,避免重復投資,降低項目成本,實現高效管理。
A:在項目完成后一周內,項目負責人以及各相應分管部門把總結和和項目的所有相關資料交到秘書部匯總存檔。
B;平常工作中,上級應該主動向下級介紹工作經驗。
9總結規范:
A:項目負責人的總結內容包括:①項目實際具體策劃書;②逐點羅列成功經驗或突破,并相應作具體說明;③逐點羅列不足之處或教訓,并相應分析原因和作出建議;④活動經費結算清單。
B:籌委會內部成員總結內容包括:①介紹項目分管工作,對相關細節有必要作說明; ②逐點羅列成功經驗或突破,并相應作具體說明;③逐點羅列不足之處或教訓,并相應分析原因和作出建議。④對活動后,自己心里的體會。
1.活動策劃:
1.活動項目化,活動系列化,宣傳有效化,資金多元化,工作透明化
2.策劃書策劃書的主要內容及應注意的細節
(1)背景、主題(2)活動目的及意義(3)主辦,承辦,協辦方(4)活動對象(影響范圍)(5)活動時間地點活動內容(6)活動籌備委員會(7)具體流程(8)效果預測(9)物資清單(10)經費預算(11)突發情況處理方案(12)第二第三備選方案
2.公共關系:
? 正確處理學院團委與年級團總支間的關系,明確組織的責權,肯定團總支的獨
立性。
? 積極配合校團委、院黨委開展工作,加強與各兄弟學院團委的交流合作,優勢
互補,相互促進,共謀華農學生組織的發展。
? 堅持獨立性原則的基礎上,密切團結院學生會,發揮兩大組織合作的巨大作用,攜手開創工程學院學生工作的美好明天
共青團華南農業大學工程學院委員會章程
總則
第一條 華南農業大學工程學院團委是在學院黨委直接領導下的學生群眾組織,她以共
產主義精神教育青年,幫助青年用馬克思列寧主義、毛澤東思想和現代科學文
化知識武裝自己,引導青年在社會主義現代化建設中,鍛煉成為有理想,有道
理,守紀律的共產主義事業的接班人。團委會在校黨委的直接領導下,開展各
項有益于學生學習和身心健康的活動,促使學生德、智、體、美、勞全面發展。
團委會要配合黨委開展適合學生特點的思想教育工作,引導學生樹立正確的人
生觀、世界觀、道德觀。團委會代表青年學生的利益,維護青年學生利益,傾
聽同學們的呼聲,充分發揮橋梁和紐帶作用。對團員進行黨的基礎知識及黨的路線、方針、政策的教育,做優秀團員入黨的推薦、培養、考察工作。
第二條 團委宗旨:
以“團結、高效、求真、務實”為原則,以服務廣大同學為宗旨,以馬克思列
寧主義、毛澤東思想、鄧小平理論和“三個代表”重要思想為行動指南,以科學
發展觀為指導方針。
第三條 團委意識:創新意識,服務意識,學習意識,奉獻意識。
第四條 院團委的基本任務:
熱愛祖國,熱愛人民,堅決擁護中國共產黨的綱領,以馬克思列寧主義,毛澤
東思想和鄧小平理論及江澤民同志“三個代表”的重要思想為行動指南,以科
學發展觀為指導方針,解放思想,實事求是,與時俱進,總攬全局、統籌規劃,團結各年級學院團員青年。堅定不移地貫徹黨在社會主義初級階段的基本路線,造就有理想,有道德,有文化,有紀律的社會主義接班人,努力為黨輸送新鮮
血液。加強學院廣大團員的思想政治工作,幫助團員青年學習科學文化知識,發揮團總支的先鋒作用,不斷提高團員青年的文化素質與政治思想覺悟。
始終把實現好、維護好、發展好廣大團員學生的根本利益作為團委一切工
作的出發點和落腳點,尊重學生主體地位,發揮學生首創精神,保障學生
各項權益。
發揮黨聯系青年的橋梁和樞紐作用。關心學院廣大同學的學習和生活,切實為
同學服務,及時向上級反映同學的意見和要求。
積極參與和配合學院搞好團組織工作和學生會組織工作,致力于學生管理;帶
動全院學生活動,組織全院學生學習黨、團的思想,致力于把全院學生培養為
有理想、有道德、有學問的、具備綜合素質的優秀學生,為國家、為社會培養
國家之棟梁,有用之才。要發揚團的優良傳統和先鋒作用,富于創造性地開展
工作,把工程學院團委建設作為教育青年團員的堅強核心。
詳細內容請查看《共青團華南農業大學工程學院委員會章程》
第二篇:典型的BI系統介紹
一個典型的BI系統介紹
商業智能系統應具有的主要功能:
讀取數據——可讀取多種格式(如Excel、Access、以Tab分割的txt和固定長的txt等)的文件,同時可讀取關系型數據庫(對應ODBC)中的數據。
分析功能——關聯/限定 關聯分析主要用于發現不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。
數據輸出功能——打印統計列表和圖表畫面等,可將統計分析好的數據輸出給其他的應用程序使用,或者以HTML格式保存。
定型處理——所需要的輸出被顯示出來時,進行定型登錄,可以自動生成定型處理按鈕。以后,只需按此按鈕,即使很復雜的操作,也都可以將所要的列表、視圖和圖表顯示出來。
以國外的一個BI系統為例,我們來介紹一個BI系統的主要功能,這個系統主要包含數據倉庫管理器(Warehouse Manager)、數據復制(Data Propagator)、多維數據庫(OLAP Server)、前臺分析工具(Wired for OLAP)以及數據挖掘(Intelligent Miner)、On Demand。
數據倉庫管理器(Warehouse Manager)
它主要由以下幾部分功能組成:數據訪問,數據轉換,數據分布,數據存儲,靠描述性數據查找和理解數據,顯示、分析和發掘數據,數據轉換過程的自動化及其管理。它縮短了復雜的海量數據與有洞察力的商務決策之間的差距,有助于公司更進一步了解其業務、市場、競爭對手和客戶。
數據復制(Data Propagator)
Data Propagator提供的復制功能允許從一個數據源讀取數據并把它送到另外一個地方,而且可以是雙向的。當發生沖突時,可自動檢測出來并進行補償。此外,它還有以下特色:
1)Pull Architecture Through Staging Tables(分級表牽引式體系結構):二個組成部分----
Capture和Apply。Capture部分在源數據庫服務器上運行,它捕獲要被復制的數據,并把數據放入服務器分級表中;Apply部分在目標機上運行。在用戶定義的時間間隔里或某個事件發生后,它連到源數據庫中,并從分級表中抽取所需的數據。這種被動的“牽引式”體系結構減少了數據源的額外開銷,能夠支持數據源及目標機的獨立運作性以及新一代流動計算機作為目標機的數據復制。這種體系結構還支持中介分級表,其中最初的源可以復制到區域目標中,然后再復制到各區域內的目標機上。
(2)支持更新和修正:既支持更新也支持修正復制。Apply可以完全替換目標數據或者僅僅修正上次復制以來所發生的改變。
(3)改變事務運行記錄的Capture:捕獲數據修改。它從數據庫運行日志(LOG)中讀出修改,從而抓取用于復制的數據修改,進而安排好這些數據。這就減少了對源的額外開銷,不需要另外處理如觸發器。甚至可以直接從內存中讀運行記錄,以減少I/O。
(4)加工數據:數據首先要從運行記錄移到分級表,所以能在復制之前加工或處理它;由于分級表是數據庫表,使用標準SQL就能定義加工處理功能。除了通過SQL來構造子集,匯總并連結表以外,分級表還能提供基于時間分析源數據改變的方法。這要考慮到整個新一類的應用包括檢查跟蹤,歷史分析,“asof”查詢等等。
(5)GUI管理機構:通過圖形用戶界面可以定義和管理數據拷貝,定義代碼和觸發器沒有專門語言。這樣最終用戶就有權定義和管理,而不僅僅是DBA和程序員的范圍。
多維數據庫服務器(OLAPServer)
該工具在商務智能中扮演著重要角色,可以深入最終用戶的業務,對桌面上的數據進行實時操作,能夠快速地分布傳統監視和報告范圍之外的應用程序數據。
數據挖掘工具(IntelligentMiner)
當用戶的數據積累到一定數量時,這些數據的某些潛在聯系、分類、推導結果和待發現價值隱藏在其中,該工具幫助客戶發現這些有價值的數據。
Wired for OLAP
使用該功能可以提高信息技術組織的效率。信息技術人員可以讓用戶利用分析和報表的功能獲得他們所需的信息,而不會失去對信息、數據完整性、系統性能和系統安全的控制。
(1)強大功能的報表
繁忙的信息技術部門可以在幾分鐘內創建用于在企業中分發的完善的報表。,決策人員可以從該Web頁面上找到可用的一系列報表。
(2)圖形化分析
遠遠超出對數據的靜態圖形化視圖,提供強壯的圖形化OLAP分析。決策人員可以根據需要排序、分組數據并改變“圖表”(Chart)的類型(直方圖、餅形圖、線圖、堆積圖)。圖表中的元素可以被“鉆取”到其他的細節層次,并可以返回來恢復一個概要性的視圖。
(3)多種圖表視圖:直方圖、線圖、組合圖、餅形圖、堆積圖和離散點圖
(4)可在任何地方“鉆取”沒有路徑的預先定義
(5)完善的報表:復合報表通過用各種不同的形式(交叉表、圖表、表格或以上幾種形式的組合)來表現分析結果,對工作進行概括;優美格式的商用報表。
(6)交互式的、立即的“所見即所得”(WYSIWYG)顯示
OnDemand
該工具提供給客戶一套高性能的解決方案來進行在線捕獲、存儲和重取計算機輸出的文檔。它使得落后的紙張文件搜索和使用縮微膠片閱讀器搜索稱為歷史。有了OnDemand,客戶可以立刻發現特定的信息并且很容易地瀏覽它,而不用在龐大的數據和紙張中苦苦尋找;存儲、重取和分發企業產生的信息比以前更加方便和易于接受。泰康人壽 以BI實現戰略轉型
泰康人壽保險公司從建立之初,就意識到信息化建設對企業發展的重要性。為促進業務的開展,泰康人壽已經建立有多個業務信息系統,主要包含:財務系統、個險系統、團險和銀行險系統,呼叫中心以及用于開展電子商務的泰康在線交易系統。這些系統從企業不同需求層面很好的支持了泰康人壽的業務運營。但由于各個系統都有自己的數據,如何將分散在不同系統的客戶數據集中起來有效使用,為各部門提供數據分析能力,為決策提供依據,成為目前需要解決的問題。
為此,泰康人壽希望建立一套以CRM為核心的商務智能系統(BI),使公司管理人員能夠對與客戶(現有客戶以及潛在客戶)有關的各種要素(需要、方式、機遇、風險、代價等)和企業運營當中各項關鍵指標(KPI)做出分析與評估,以便于為本企業贏得最大的回報。
泰康人壽商務智能項目最終選擇了Sybase壽險行業IWS解決方案,并以此為基礎整合原有的五大業務系統,實施九項業務分析主題。
在實施方法上,泰康保險采用了增量式開發,也就是整體設計、分布實施的策略,這可以使泰康人壽能夠邊實施邊見效,并且使用過程中的反饋信息將有助于下一步的開發工作,因此極大地提高了開發的效率。BI項目分成兩個主要階段:第一階段,完成BI項目的一個或二個分析主題。第二階段,以第一階段建立的分析環境為原型,進行更進一步的需求調研,完善和明確BI項目的業務需求,全面地進行IWS的客戶化工作。
商務職能系統能夠使泰康人壽在成本、收入和戰略方面獲益。
成本方面:借助商務智能系統,泰康人壽可以得到完整的視圖,來分析成本構成,改變成本管理現狀,降低業務運作成本。通過CRM 系統提供的各項分析數據,泰康人壽能在商業活動中,以更低的風險,做出最明智的決策。
收入方面:通過對營銷員和營銷機構產能的分析、利潤的分析,可以大大改進泰康人壽在營銷過程中的效率,加速產品上市時間,獲得更精確更全面的市場和客戶信息,實現與合作伙伴之間更好的合作,提高團隊效率,保證將重要客戶信息提供給需要方而提升交叉銷售業績。
戰略方面:借助商務智能平臺,泰康能對不斷變化的市場環境、客戶需求做出更快的反應。從歷史數據中選擇不同的角度考察消費行為,評估客戶價值,細分客戶群;針對不同的客戶群發掘消費特點,建立數據模型,對不同的客戶群做出預測;估計對收益或利潤的影響,對市場活動的效果進行預測,通過設置商業規則,進行復雜的市場劃分;最終幫助泰康實現從以產品為中心的戰略,轉換到以客戶為中心的戰略。Session1:醫院智能分析業務與需求
Session2:解決方案技術框架與Demo效果;
Session3:關鍵技術和實現;
ETL-如何確定起始來源數據
How is the system-of-record determined? 如何確定起始來源數據? 答:
這個問題的關鍵是理解什么是System-of-Record。System-of-Record和數據倉庫領域內的其他很多概念一樣,不同的人對它有不同的定義。在Kimball的體系中,System-of-Record是指最初產生數據的地方,即數據的起始來源。在較大的企業內,數據會被冗余的保存在不同的地方,在數據的遷移過程中,會出現修改、清洗等操作,導致與數據的起始來源產生不同。
起始來源數據對數據倉庫的建立有著非常重要的作用,尤其是對產生一致性維度來說。我們從起始來源數據的越下游開始建立數據倉庫,我們遇到垃圾數據的風險就會越大。
ETL架構師面試題(中文)ETL架構師面試題(中文)
本部分的題目來自Kimball的ETL Toolkit著作,原著未直接給出答案。這里的中文題目和答案是我參考其原著按自己的理解整理而來的,僅供參考。對于其中不確切的地方,歡迎大家一起溝通。有興趣的朋友可以直接閱讀原著。
-----答案持續更新中,點擊題目可見答案。
分析
1.什么是邏輯數據映射?它對ETL項目組的作用是什么?
2.在數據倉庫項目中,數據探索階段的主要目的是什么?
3.如何確定起始來源數據?
架構
4.在ETL過程中四個基本的過程分別是什么?
答:
Kimball數據倉庫構建方法中,ETL的過程和傳統的實現方法有一些不同,主要分為四個階段,分別是抽取(extract)、清洗(clean)、一致性處理(comform)和交付(delivery),簡稱為ECCD。
1.抽取階段的主要任務是: 讀取源系統的數據模型。連接并訪問源系統的數據。變化數據捕獲。
抽取數據到數據準備區。2.清洗階段的主要任務是: 清洗并增補列的屬性。清洗并增補數據結構。清洗并增補數據規則。增補復雜的業務規則。
建立元數據庫描述數據質量。
將清洗后的數據保存到數據準備區。3.一致性處理階段的主要任務是:
一致性處理業務標簽,即維度表中的描述屬性。
一致性處理業務度量及性能指標,通常是事實表中的事實。去除重復數據。國際化處理。
將一致性處理后的數據保存到數據準備區。4.交付階段的主要任務是:
加載星型的和經過雪花處理的維度表數據。產生日期維度。加載退化維度。加載子維度。
加載1、2、3型的緩慢變化維度。處理遲到的維度和遲到的事實。加載多值維度。
加載有復雜層級結構的維度。加載文本事實到維度表。處理事實表的代理鍵。
加載三個基本類型的事實表數據。加載和更新聚集。
將處理好的數據加載到數據倉庫。
從這個任務列表中可以看出,ETL的過程和數據倉庫建模的過程結合的非常緊密。換句話說,ETL系統的設計應該和目標表的設計同時開始。通常來說,數據倉庫架構師和ETL系統設計師是同一個人。
5.在數據準備區中允許使用的數據結構有哪些?各有什么優缺點?
6.簡述ETL過程中哪個步驟應該出于安全的考慮將數據寫到磁盤上?
抽取
7.簡述異構數據源中的數據抽取技術。
8.從ERP源系統中抽取數據最好的方法是什么?
9.簡述直接連接數據庫和使用ODBC連接數據庫進行通訊的優缺點。
10.簡述出三種變化數據捕獲技術及其優缺點。
數據質量
11.數據質量檢查的四大類是什么?為每類提供一種實現技術。
12.簡述應該在ETL的哪個步驟來實現概況分析?
13.ETL項目中的數據質量部分核心的交付物有那些?
14.如何來量化數據倉庫中的數據質量?
建立映射
15.什么是代理鍵?簡述代理鍵替換管道如何工作。
16.為什么在ETL的過程中需要對日期進行特殊處理?
17.簡述對一致性維度的三種基本的交付步驟。
18.簡述三種基本事實表,并說明ETL的過程中如何處理它們。
19.簡述橋接表是如何將維度表和事實表進行關聯的?
20.遲到的數據對事實表和維度表有什么影響?怎樣來處理這個問題?
元數據
21.舉例說明各種ETL過程中的元數據。
22.簡述獲取操作型元數據的方法。
23.簡述共享業務元數據和技術元數據的方法。
優化/操作
24.簡述數據倉庫中的表的基本類型,以及為了保證引用完整性該以什么樣的順序對它們進行加載。
25.簡述ETL技術支持工作的四個級別的特點。
26.如果ETL進程運行較慢,需要分哪幾步去找到ETL系統的瓶頸問題。
27.簡述如何評估大型ETL數據加載時間。
實時ETL
28.簡述在架構實時ETL時的可以選擇的架構部件。
29.簡述幾種不同的實時ETL實現方法以及它們的適用范圍。
30.簡述實時ETL的一些難點及其實現方法。ETL-邏輯數據映射
What is a logical data mapping and what does it mean to the ETL team? 什么是邏輯數據映射?它對ETL項目組的作用是什么? 答:
邏輯數據映射(Logical Data Map)用來描述源系統的數據定義、目標數據倉庫的模型以及將源系統的數據轉換到數據倉庫中需要做操作和處理方式的說明文檔,通常以表格或Excel的格式保存如下的信息: 目標表名: 目標列名:
目標表類型:注明是事實表、維度表或支架維度表。SCD類型:對于維度表而言。
源數據庫名:源數據庫的實例名,或者連接字符串。源表名: 源列名:
轉換方法:需要對源數據做的操作,如Sum(amount)等。
邏輯數據映射應該貫穿數據遷移項目的始終,在其中說明了數據遷移中的ETL策略。在進行物理數據映射前進行邏輯數據映射對ETL項目組是重要的,它起著元數據的作用。項目中最好選擇能生成邏輯數據映射的數據遷移工具。
-----------------------------補充:
邏輯數據映射分為兩種:
: 模型映射: 從源模型到DW目標模型之間的映射類型有: 一對一:一個源模型的數據實體只對應一個目標模型的數據實體。如果源類型與目標類型一致,則直接映射。如果兩者間類型不一樣,則必須經過轉換映射。
一對多:一個源模型的數據實體只對應多個目標模型的數據實體。在同一個數據存儲空間,常常出現會一個源實體拆分為多個目標實體的情況下。在不同的存儲空間中,結果會對應到不同的存儲空間的實體。一對零:一個源模型的數據實體沒有與目標模型的數據實體有對應,它不在我們處理的計劃范圍之內。零對一:一個目標模型的數據實體沒有與任何一個源數據實體對應起來。例如只是根據設計考慮,時間維表等。
多對一:多個源模型的數據實體只對應一個目標模型的數據實體。多對多:多個源模型的數據實體對應多個目標模型的數據實體。
2: 屬性映射 一對一:源實體的一個數據屬性列只對應目標實體的一個數據屬性列。如果源類型與目標類型一致,則直接映射。如果兩者間類型不一樣,則必須經過轉換映射。
一對多:源實體的一個數據屬性列只對應目標實體的多個數據屬性列。在同一個實體中,常常出現會一個源屬性列拆分為目標的多個屬性列情況。在不同實體中,結果會對應到不同的實體的屬列。一對零:一個源實體的數據屬性列沒有與目標實體的數據屬性列有對應,它不在我們處理的計劃范圍之內。零對一:一個目標實體的數據屬性列沒有與任何一個源數據屬性列對應起來。例如只是根據設計考慮,維表和事實表中的時間戳屬性,代理健等。
多對一:源實體的多個數據屬性列只對應目標實體的一個數據屬性列。多對多:源實體的多個數據屬性列對應目標實體的多個數據屬性列。
作用: 1 為開發者傳送更為清晰的數據流信息。映射關系包括有關數據在存儲到DW前所經歷的各種變化的信息,對于開發過程中數據的追蹤審查過程非常重要。把ETL過程的信息歸納為元數據,將數據源結構,目標結構,數據轉換規則,映射關系,數據的上下文等元數據保存在存儲知識庫中,為元數據消費者提供很好的參考信息,追蹤數據來源與轉換信息,有助于設計人員理解系統環境變化所造成的影響;
開發設計者可以輕松的回答以下的問題:
1、這些數據從那里來?
2、這樣的結果通過什么樣的計算和轉化得來?
3、這些數據是如何組織的?
4、數據項之間有什么聯系?
5、如果源發生變化,有那幾個系統,目標受影響?
ETL-數據探索階段的主要目的
What are the primary goals of the data discovery phase of the data warehouse project? 在數據倉庫項目中,數據探索階段的主要目的是什么? 答:
在邏輯數據映射進行之前,需要首先對所有的源系統進行分析。對源系統的分析通常包括兩個階段,一個是數據探索階段(Data Discovery Phase),另一個是異常數據檢測階段。數據探索階段包括以下內容:
1.收集所有的源系統的文檔、數據字典等內容。
2.收集源系統的使用情況,如誰在用、每天多少人用、占多少存儲空間等內容。3.判斷出數據的起始來源(System-of-Record)。
4.通過數據概況(Data Profiling)來對源系統的數據關系進行分析。數據探索階段的主要目的是理解源系統的情況,為后續的數據建模和邏輯數據映射打下堅實的基礎。
選擇合適的ETL工具
ETL解決方案包括數據抽取(E)、數據傳輸、轉換與清洗(T)、數據加載、調度(L),ETL系統將貫穿整個商業智能系統的全過程。
目前,商業智能系統有兩種實施策略:
一種是將BI系統建造在目前已有的業務系統之上,以企業應用集成(EAI)系統為核心,將各個業務系統的獨立數據統一成標準數據格式(如XML),然后,由BI系統進行整合、分析、展現。此類BI系統通常是與EAI系統捆綁在一起的,其架構讀者可通過EAI系統的相關資料進行了解,此處將不做討論。
另一種是將BI系統建立在企業級的數據倉庫基礎上,由數據倉庫將企業的業務數據統一存儲在企業邏輯數據模型架構中,然后,通過在數據倉庫基礎上建立邏輯或物理的數據集市、數據決策系統、數據在線分析系統等子系統,完成數據的整合、分析,然后由前端展現工具對已有的數據(原始數據、整合數據)進行匯總及展現。由于此類BI系統可以分步實施,用戶可逐步建立其BI系統,所以成功率比較高。以目前已有的商業智能系統來看,此種架構將成為商業智能系統發展的主流。以下的討論將以此種架構為基礎。
在企業級的以數據倉庫系統為中心的商業智能系統中,其組成架構包括以下幾部分:
● 源數據系統
● 可操作數據存儲系統(ODS)
● 數據決策系統(DDS)
● 在線分析系統(OLAP)
● 前端展現工具
● 元數據系統
商業智能系統運行的基礎是互相獨立、互不兼容的、復雜的源數據系統,各個源數據系統是企業在不同的歷史時期建立的,面向不同業務需求的生產系統。因此,依照合理的方式整合源數據系統,將源數據統一存儲在以企業邏輯模型構建的ODS系統中,DDS、OLAP、前端展現工具依照用戶需求,對數據進行匯總、展示,并按照用戶喜好的方式,將結果展現在用戶面前是商業智能系統的基本任務。由于企業業務系統的復雜性,各個源數據系統的數據結構、格式、定義各不相同,為了能有效的整合企業數據系統,保持數據的一致性,并將數據統一地展現在客戶面前,ETL解決方案是用戶唯一的選擇。
ETL解決方案包括數據抽取(E)、數據傳輸、轉換與清洗(T)、數據加載、調度(L),毋庸置言,ETL系統將貫穿整個商業智能系統的全過程,如圖所示,從源數據系統到前端展示系統的整個商業智能系統各個組件之間,都存在ETL過程。
ETL方案對整個商業智能系統的重要性可與血液與人體的作用相提并論,一個有效的ETL處理方案將是系統成功的首要因素。
ETL方案的選擇應考慮以下方面:
● 數據操作效率;
● 數據操作時間周期;
● 定制的靈活性。
對ETL來說,數據操作的效率是最重要的考慮因素。對效率的考察,應包括以下幾點:
1.是否支持復雜的數據操作;
2.是否支持多任務并行操作;
3.是否符合系統對數據處理時間窗口的要求。
數據操作時間周期的支持包括:
1.是否支持各種數據處理時間周期的混合操作;
2.是否支持數據的小批量持續加載;
3.是否支持數據的大批量定時加載。
定制靈活性包括:
1.是否支持數據依賴的建立;
2.是否支持數據流的建立;
3.是否支持操作定時啟動;
4.是否可擴展;
5.開發環境是什么,開發是否簡單、靈活。
對于ETL流程的建立,通常有以下兩種方式:
● 利用數據庫系統、業務子系統工具自行開發
● 購買現成的ETL工具
通常情況下,ETL方案中,以上兩種方式是同時存在的。一般情況下,利用各個子系統提供的工具進行自行開發,可充分利用子系統的優化操作,提高數據處理效率,但其靈活性和可擴展性欠佳;購買現成的ETL工具(如EAI、Informatic等廠商的ETL工具),可靈活定制數據處理流程,簡化數據開發,縮短ETL方案實施周期,但其處理效率較低。因此,建議讀者應結合以上的ETL建立方式,在保證ETL性能的前提下,購買合適的ETL工具。利用UDF來調用操作系統命令和DB2的常用命令
由于DB2是不支持復合 SQL 語句內不支持調用操作系統命令,所以一些對應我們常用的一些語句如數據導入,導出是命令行而不是SQL語句,都不能在存儲過程中調用,必須寫一些 SHELL或者BAT文件,進行腳本編制來進行。但是在我們的這種BI應用中,ETL過程中的E過程,數據的導入是一件必不可少的過程,通過腳本的控制,比較麻煩和整個過程有點不是很完整。找尋是否有其他的解決方案。不過據說在新版本的DB2上是可以支持的。但是我們都是用V8.1
之前看了IBM網站的一篇文章,提到可以利用 UDF 來執行純 SQL 中不可用的操作。因為UDF可以用外部語言(即,SQL 以外的其它語言,如JAVA,C)編寫,并可以通過使用 CREATE 語句向數據庫注冊,這樣我們就可以編寫一個JAVA應用程序來調用操作系統命令和DB2的常用命令。當這個外部函數注冊后,我們就可以在存儲過程中可以使用該函數,進行數據的導入,導出。
參見資料“另一篇有關高級腳本編制的文章”和“如何注冊Java UDF ”
步驟:
1、編寫一個JAVA程序(os_cmdUDF.java)import java.io.*;import COM.ibm.db2.app.UDF;
public class os_cmdUDF extends UDF{
public static int os_cmd(String cmd){
Runtime rt = Runtime.getRuntime();
Process p=null;
int success = 0;
try {
p = rt.exec(cmd);
}
catch(IOException e){
success =-1;
}
return(success);
} }
2、運行javac UDFLogs.java編譯 javac os_cmdUDF.java
產生的結果是一個稱為 os_cmdUDF.class 的文件,隨后需要將該.class 文件復制到 sqllib 目錄
3、運行jar打包UDFLogs.class為os_cmdUDF.jar jar cf os_cmdUDF.jar os_cmdUDF.class
4、連上數據庫,運行安裝.jar文件到數據庫 db2 connect to testsu user db2admin db2 “CALL sqlj.install_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”
之后os_cmdUDF.jar安裝到D:IBMSQLLIBjarDB2ADMIN的路徑下。
5、運行create 建立函數 DROP os_cmd;CREATE os_cmd(IN VARCHAR(1000))RETURNS INTEGER EXTERNAL NAME 'os_cmdUDF:os_cmdUDF!os_cmd' LANGUAGE JAVA PARAMETER STYLE JAVA NOT DETERMINISTIC NO SQL EXTERNAL ACTION;
6、測試os_cmd函數是否可用
db2 “values os_cmdUDF('db2cmd.exe')” 返回結果,1-----------
0 條記錄已選擇。
函數可以用。
7、建立調用os_cmd函數的存儲過程。
CREATE PROCEDURE DB2ADMIN.sp_exec(--輸入參數
IN loadstr varchar(1024),--輸出參數
OUT o_err_msg varchar(1024))--支持語言
LANGUAGE SQL
P1: BEGIN--臨時變量,出錯變量
declare SQLCODE
integer default 0;declare stmt
varchar(1024);declare state
varchar(1024)default 'AAA';--記錄程序當前所作工作 DECLARE status INT DEFAULT 0;
--聲明出錯處理
DECLARE EXIT HANDLER FOR SQLEXCEPTION begin
set o_err_msg='處理'||state||'出錯 '||'錯誤代碼SQLCODE:'||CHAR(SQLCODE);end;
--程序開始
SET status = os_cmd(loadstr);if(status <> 0)then
set o_err_msg = stmt;end if;
END P1
8、調用存儲過程
call sp_exec('db2cmd.exe E:work_file濟南商行測試DB2測試DBCONN_space.bat');
DBCONN_export.bat的作用(清空一個表):
DB2 CONNECT TO testsu USER db2admin using db2admin/ db2 “load from 'E:work_file濟南商行測試DB2測試space.dat' OF DEL MODIFIED BY NOROWWARNINGS MESSAGES 'E:work_file濟南商行測試DB2測試space.log' REPLACE INTO jxdx_ckzhmx ” DB2 CONNECT RESET
9、驗證存儲過程調用的結果。
db2 select count(*)from jxdx_ckzhmx
注意:在測試這個功能的時候有一些細節沒有注意,導致函數注冊后不能調用。
1、編譯JAVA源文件的編譯器和執行的JVM的版本必須一致的 DB2 V8.2 安裝時帶的 “1.4.1”; 而本機又另外裝了一個 “1.5.0_05” 之前沒有注意,直接使用命令javac來進行編譯,用的是默認1。5版本的 函數注冊后,調用出錯,提示SQL4304 reason code “1”的錯誤信息;
而給出的提示是說CLASSPATH 有問題,所以注意力一直放到這個方面找問題所在 后來才發現真正的問題是出現在版本上。
最好直接在SQLLIBjavajdkbin的目錄下編譯后再COPY。
2、設置 Java 環境 幾個關鍵的設置: 參見文檔:《解決 DB2 UDB Java 存儲過程的常見問題》
JDK_PATH: 這是一個數據庫管理器配置(DBM CFG)參數。這個參數指出用來執行 Java 存儲過程的 JVM 或 Java Development Kit(JDK)的位置。
這是一個非常重要的參數。它的值應該設置為包含 JVM Java 可執行文件的 “bin” 目錄的上一級目錄的完整路徑。
在 Windows?平臺上的一個例子是 C:Program FilesIBMSQLLIBjavajdk。
UNIX? 例子是 /usr/java1.3.1。JVM 級別也非常重要,因為根據使用的 db2level 和平臺級別,DB2 UDB 只支持某些 JVM 級別。
JAVA_HEAP_SZ: 這是一個數據庫管理器配置(DBM CFG)參數。
這個參數決定為 Java 存儲過程和 UDF 服務的 Java 解釋器所使用的堆的最大大小。為了避免在 Java 存儲過程中耗盡內存,可以增加這個值。但是,如果在環境中要調用許多存儲過程(即,每個 JVM 都會分配這么多堆空間),那么分配太多內存也是有害的。一般規則是保持 JAVA_HEAP_SZ 為默認設置,即 512(4K 頁)。
其他相關內容:
一、如何安裝jar文件到當前數據庫:
db2 “CALL sqlj.install_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”
二、如何更新當前數據庫中的jar文件: db2 “CALL sqlj.remove_jar('os_cmdUDF')”
三、如何替換當前數據庫中刪除jar文件:
db2 “CALL sqlj.replace_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”
四、如何當前數據庫中刪除jar文件:
db2 “CALL sqlj.remove_jar('os_cmdUDF')”
五、如何刷新已經調用的jar或class,不用重啟實例就生效: db2 “CALL SQLJ.REFRESH_CLASSES()”
通俗的講:BO完成數據查詢后,查詢出來的數據存儲在本地;Cognos完成數據查詢后,查詢出來的數據存儲在服務器上。因此,BO可以在數據刷新完成之后直接利用客戶端的切片/旋轉等功能直接進行多維分析,而Cognos可以將查詢出來的數據以excel文件的形式保存到本地,然后使用excel的數據透視表功能進行多維分析。
BO使用聚合表技術可以先將報表需要的常用維度的匯總數據存儲到聚合表中,BO的語義層可以識別一個查詢是否需要訪問包含明細數據的表,如果該查詢不需要明細數據,則生成SQL時直接訪問聚合表,可以提高報表生成效率。Cognos不能實現此功能,所以查詢部分報表的效率會有所下降,查詢時間會變長。
BO中的語義層類似于Cognos中的主題
BO在前端展現方面比較突出,用戶接受程度較高。是目前主流的商業智能工具之一,但因其沒有OLAP Server,導致數據監控功能較弱,雖然也可以與微軟或Oracle的OLAP Server掛接,但這樣畢竟受制于人,給客戶提供的方案也不是最集成的。
[介紹]Business Objects商務智能解決方案
作者:Administrator
周四, 13 11月 2008 12:23
Business Objects商務智能平臺為客戶提供了一個可擴展的基礎設施平臺,使信息得以準確及時地傳遞,提高了企業的洞察力。BO商務智能平臺可以獲取來自任何地方的數據,無論在最新的ERP中,還是散布在各處角落的歷史文件中。該系列包括: 信息發現與發布(Information Discovery & Delivery)
? 數據可視化和報表模塊該模塊是報表與儀表盤功能的延伸,它讓普通用戶直接在報表/儀表盤上分析信息,鉆取數據。并把分析結果分發到各個地方,例如:移動設備,桌面,Email,門戶網站和搜索引擎中。
企業信息管理(Enterprise Information Management)
? 數據集成(DI)與數據質量管理(DQ)模塊-管理企業所有的數據庫(包括SAP與非SAP),執行最常見的數據庫應用,如:ETL(抽取、轉換和上傳),數據清洗等。
? 主數據管理模塊(MDM)-使企業能夠以鞏固,協調和集中的方式管理關鍵業務數據。制定數據行業標準,幫助企業管理全球的主數據。
SAP集成解決方案(Integration for SAP Solutions)SAP基礎解決方案使SAP 用戶能夠提取SAP 系統內包含的商務智能信息。BusinessObjects Integration for SAP Solutions 由以下主要組件組成:
? Crystal Reports 是允許依據SAP 數據創建報表的報表設計工具;
? BusinessObjects Enterprise 提供了用于在Web 上管理、計劃和分發報表的框架。該解決方案允許Voyager、Web Intelligence、LiveOffice 以及Xcelsius 之類的工具依據SAP 創建報表。
? BusinessObjects InfoView 允許在Web 上共享報表,并且SAP 身份驗證在SAP 系統與BusinessObjects Enterprise 之間實現了單一登錄。
? Rapid Marts for SAP 為用戶提供了各個SAP不同主題的數據集市ETL模板,樣本語義層與報表。以便用戶通過BO的ETL工具快速實施常用的數據集市。
BI-一般的實施步驟: 商業智能的實施
用戶不僅要選擇合適的商業智能軟件工具,還必須按照正確的實施方法才能保證商業智能項目得以成功,項目的實施步驟可分為: 2.1需求分析
在其他活動開展之前必須明確的定義企業對商業智能的期望和需求,包括需要分析的主題,各主題可能查看的維度,即需要發現企業哪些方面的規律。2.2 數據倉庫建模
通過對企業需求的分析,建立企業數據倉庫的邏輯模型和物理模型,并規劃系統的應用架構,將企業各類數據按照分析主題進行組織和歸類。2.3 數據抽取
數據倉庫建立后必須將數據從業務系統中抽取到數據倉庫中,首先將來自運營、財務、CRM等不同數據源的不同類型數據采用數據整合平臺進行抽取、凈化、轉換和裝裝載,形成可以被系統識別的統一數據格式,導人數據倉庫存放。2.4 建立分析報表
商業智能分析報表是數據倉庫信息的展現,根據客戶戶的不同需求,利用多種展現工具,可以將存放在數據倉庫中的歷史數據進行展現和挖掘,生成報表,或者生成展現圖表,進行分類和聚類,進行多維度檢索等。無論是企業的高層管理者,還是普通的業務人員,都可以根據展現出來的數據或者挖掘出來的關聯信息,輔助自己做出下一步的生產營銷決策。2.5 數據測試與系統改進
要使系統成功交付使用,最終用戶的培訓與軟件測試是關鍵的環節,可以找出系統的不足,以更好地適應實際應用。在用戶使用一段時間后可能會提出更多的,更具體的要求,這時需要再按照上述步驟對系統進行重構或完善。
在BI實施的各步驟中,DW是基礎,OLAP技術用于數據報表的生成,而DM技術用于產生支持決策的信息,從此也體現出Bl是上述多種技術的綜合應用與體現。圖1充分說明了這一點。商業智能具有的功能
BI產品和方案必須建立在穩定、整合的平臺上,該平平臺需要提供用戶管理、安全性控制、連接數據源以及訪問、分析和共享信息的功能。3.1 關聯分析功能
關聯分析主要用于發現不同事件之間的關聯性,即一一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。其主要依據是,事件發生的概率和條件概率應該符合一定的統計意義。例如,一個開設儲蓄賬戶的客戶很可能同時進行債券交易和股票交易。利用這種知識可以采取積極的營銷策略,擴展客戶購買的產品范圍,吸引更多的客戶。3.2 監視功能
預先設置條件,使符合條件的數據以一定形式顯示出來,這樣可以使問題一目了然。例如:上季度營業額少于萬元的分店顯示出來,以引起管理人員的注意。3.3 記錄選擇功能
可以從大量數據中選取需要的數據,重新構成一個數據環境,可以使用戶關注的數據集中顯示出來。
3.4 程序調用功能
把通過按鈕查找抽取出的數據,傳給其他的軟件或用戶原有的程序,并執行這些程序。3.5 展示功能
BI要有查找、統計、排序等功能,并將結果以一定的的形式展示給用戶,以支持用戶進行多方面的數據分析和決策。3.6 數據輸出功能
打印統計列表和圖表畫面等,可將統計分析好的數據輸出給其他的應用程序使用,或者以HTML格式保存。
數據倉庫技術是為了解決擁有大量業務數據的企業能及時有效地提取經營管理決策所需要的信息而產生的,如何有效地組織大量的數據,維護數據的一致性,方便用戶的訪問,這只是數據倉庫技術的一個方面。另一個重要方面是如何為決策人員有效地使用信息提供方便,使他們能通過使用數據倉庫系統對企業的經營管理做出正確的決策,從而為企業帶來經濟效益。然而,數據倉庫中的大部分信息是不易瀏覽的。要使數據倉庫為最終用戶的決策支持提供數據,就要借助OLAP技術,通過 OLAP技術,利用數據的多維視圖,用戶能多角度、多側面、多層次地考察數據庫中的數據,從而深人地了解包含在數據中的信息及其內涵。OLAP為數據倉庫提供了快速瀏覽、分析,若要智能化且主動地把這些數據轉變為有用的信息和知識,離不開日益受到重視的數據挖掘技術。數據挖掘又稱數據庫中的知識發現(KDD),是指從存放在數據庫、數據倉庫或其他信息庫中的大量數據中自動地發現相關模式、提取有潛在價值的信息、挖掘知識的過程。從CRM 的角度,數據挖掘應用就是從大量數據中挖掘出隱含的、先前未知的、對決策有潛在價值的知識和規則,并能夠根據已有的信息對未來發生行為做出結果預測,為企業經營決策、市場策劃提供依據。在CRM中應用的數據挖掘模式主要有以下五種:關聯分析、分類、聚類分析、序列分析、孤立點分析。對于要挖掘的數據,可以是來自傳統的關系數據庫,也可以建立面向主題的、采用多維數據立方體組織數據的數據倉庫。
數據挖掘經過確定業務對象、數據準備、建立模型、驗證模型、數據挖掘、結果分析等步驟,不僅完成了對歷史數據的分析,以及不同客戶群體的消費數據的分析,而且將這些數據知識化,以預測企業在未來將要發生的狀況,從而提高企業的收益能力和決策能力。如,商家可以在分析市場銷售數據的基礎上選擇潛在的顧客,以便向他們推銷產品,減少了開展業務的盲目性。可以通過數據挖掘技術,發現有欺詐傾向的用戶,避免企業受到損失。
第三篇:BI項目實施方案總結
項目實施階段幾個主要問題
1、數據準備
2、缺乏關鍵用戶的參與
3、培訓效果急于求成
4、需求擴大化
5、乙方的承諾
6、項目文檔管理
一、數據準備
項目實施的數據準備階段要求客戶方提供完整的基礎數據以及截至某一時間點的事務性數據,即便將數據整理完畢,其準確性也難以保證,導致不斷出現反復核對修改數據,這樣經常使得原計劃的數據準備工作延期完成,而有的實際的業務數據已經發生,這給后期的業務處理帶來很大的麻煩,導致項目總是模擬運行,無法實現按計劃的順利切換。(若是數據標準統一階段無法按期完成,如何解決?或者按期完成了但是數據準確性不高,導致后期建模,報表等的修改,責任如何劃分?修改的人天如何計算?)
解決方案---乙方應告知我們如何提供完整的、準確的數據字典,應如何去進行分類、編碼、整理
二、缺乏關鍵用戶的參與
項目實施不僅是軟件供應商的事,關鍵用戶必須全程參與項目實施,協調方案討論、需求確認、計劃審定并與實施人員一起推動項目實施,項目經理要定期進行階段工作總結,分析存在的問題,總結項目實施的階段性成果,制定下個階段的實施計劃,爭取企業管理者的重視和信任
三、培訓效果急于求成
培訓不夠正規,培訓環境、人員、課件簡陋,培訓的效果大打折扣,客戶對軟件的功能、流程及設計思想認識不足,堅持過去模式,不能接受新系統帶來的變化,項目經理的方案難以實施。(培訓一定要讓業務人員了解實施的整個過程以及各個階段的內容和目標,要讓業務人員明白實施能給他們帶來的價值)
四、需求擴大化
需要一開始就明確需求,明確實施的范圍和目標
五、銷售人員不切實際的承諾
關于實施范圍、要求能否實現等問題,一定要實施人員做出解答,而不能是銷售人員
六、項目文檔管理
需要有書面化的文檔來明晰各自的職責,信息互通,共同把握實施的節奏(具體包括需求范圍,人員職責等)需要標準的業務流程文檔,有助于雙方明晰業務流程,有效配合業務流程的重組和優化 標準編碼、標準數據文檔及標準參數設置文檔等,可有效地減少重復的工作
從報表開發流程及參與者角色的角度談一下BW項目: 1.用戶需求階段:
報表應用從需求出發,因為BW報表一般是分析型的報表,需要需求提出者對業務有相當的了解,有較高的綜合、歸納能力,若需求不準確,需求多變,報表開發周期難免會延長。
2.需求分析、模型設計階段
此階段可以說是報表開發最重要的階段,與單純R/3報表開發相比,BW報表需要更多的設計、架構。此階段的參與角色除了需求者以外,最重要的是架構師、業務顧問。業務顧問要對用戶需求領域的業務非常清楚,架構師除了精通BW技術外,對需求業務領域也必須有深入的認識,并且架構師、業務顧問必須溝通良好,否則會面臨較大風險。有了基本模型,可能還需要一些程序來實現其中部分功能,因為涉及大量數據,程序設計人員除了實現功能外,尤其需要關注程序的效率。
3.數據抽取階段
模型設計完畢之后,就可以開始抽取、加載數據了。數據抽取、加載人員必須對BW數據流有清晰的理解,根據數據流程設計自動處理鏈,讓系統自動運行,并知道各類錯誤如何解決。
4.報表開發、權限配置階段
此對報表開發、權限配置人員的基本要求同樣是精通BW報表制作及權限配置。
5.報表測試、推廣階段
報表出來后先要經過業務顧問、關鍵用戶仔細測試。由于BW報表一般涉及大量數據,復雜邏輯,在推廣前一定要經過仔細測試,最好將各種業務可能都測試到,確保報表準確。
第四篇:BI實驗報告
BI課程
學號:
姓名:王曉郁
專業:計算機科學與技術
日期:
實驗報告
0841902112(08中法)2012年5月20日
實驗、QL Server BI Step by Step SSIS 3 【開發語言及實現平臺或實驗環境】
sql server 2008
【實驗目的】
(1)利用SSIS把SQL Server中的數據導出與導入。(2)熟悉和掌握實驗的各種操作。
(3)能夠在實際的事例中靈活運用學到的有關知識。
【實驗原理】 1.SQL語句查詢 2.SSIS包功能
【實驗要求】
(1)利用SSIS實現了數據的導入和導出,把Product表中的數據導出成Excel,然后對產品編號和名稱兩個字段經過派生的功能進行轉換再導入到數據庫中。(2)按照實驗步驟所示內容認真完成每一個步驟;
【實驗步驟】 1.打開Vs.net 2005,選擇商業智能項目,然后選擇模板中的Integration Service項目,輸入項目名稱:
創建好后,就在默認的Package包中進行設計。
2.向控制流中添加一個數據流組件(Data Flow Task),雙擊進入數據流.從左邊的工具箱中選擇OLEDB數據源(OLE DB Source),可以看到,添加進去后是紅色的.雙擊設置一下連接,如果沒有已經創建的鏈接,則新建一個連接,選定后設置直接訪問Produt表。
OK,確認了之后,發現紅色的錯誤提示已經不存在了。
3.接下來直接再添加一個目標數據源,將數據導出成Excel數據格式,所以選擇Excel Destination,同樣,雙擊對Excel連接管理器進行配置,配置好文件名稱和路徑以后(此處選擇在首行顯示列名,這樣會從第二行開始才開始顯示數據),如果文件不存在,直接選擇下面的新建,創建新的Excel工作表。
4.然后從左邊切換到映射,對數據流中的元數據的列和Excel表中的列進行一一映射,因為剛才是自動創建的Excel工作表,所以默認是根據名稱對應的.這樣我們就完成了對Product產品表的導出,在右邊的解決方案中,右擊執行包,可以看到綠色執行成功.5.通過設置sql語句導出所有顏色為黑色的產品,讓我們把OLEDB數據源的訪問模式改成sql命令,然后輸入查詢語句:
SELECT * FROM Production.Product WHERE(Color = 'Black')
6.接下來,我們再將剛才導出的產品數據導入Product表中.再添加Excel Source和OLE DB Destination,其實就是做和導出相反的過程.把 Excel Source的OLEDB連接指向Excel連接管理器。
OLE DB Destination的連接設置成OLE DB Source中的數據庫連接,同樣,設置成以[表或視圖]的方式訪問Product表,確定后發現有紅色錯誤。需要將rowguid字段,這兩個字段都是數據庫中自動生成的.再次確認后會發現已經沒有錯誤,只剩下了黃色的警告,現在暫時不理會這個警告。
7.把剛才生成的Excel文件刪除,重新配置Excel連接管理器生成新的空Excel文件(或者把生成的Excel中的數據刪除),然后再次運行包,剛才的數據導出仍然正常,數據導入顯示的是沒有導入任何數據,這是因為在數據中剛才的數據導出和導出并沒有先后,所以他們是同步執行的,執行導入時發現里面的數據為空,所以沒有導入成功任何數據.不過,嘗試著把數據導入的操作直接放在Excel Destination后面是失敗的,Excel Destination就是數據流目標,意味著整個流程的結束.(此時Excel Destination中只可定義一個錯誤輸出)。
8.切換到控制流,再添加一個數據流任務,將第一個數據流任何指向這個(鼠標拖拉綠色箭頭):
9.雙擊剛添加的數據導入(已經編輯的數據流組件名稱),把剛才的數據流中的組件剪切過來.清空Excel數據再次運行包,有錯誤 ,看下面的錯誤信息: An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “語句已終止。”.An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “不能在具有唯一索引 'AK_Product_ProductNumber' 的對象 'Production.Product' 中插入重復鍵的行。”.10.暫時通過添加一次轉換,在剛才的數據流源和數據流目標中間再添加一個派生列組件(Derived Column ,Updates column values using expressions).添加一個新列NewProductNumber,在Excel中的產品編號后面加1,組成新的產品編號,同樣派生出一個新的產品名稱Name,因為在數據庫中同樣也有唯一性約束.11.還要修改OLE DB目標中的映射,將目標列的ProductNumber對應的輸入列ProductNumber改成剛才派生的NewProductNumber.將目標列的Name對應的輸入列Name改成剛才派生的NewName.清空Excel數據,再次運行包,都變成了綠色,執行全部成功
12.通過對比數據庫,確實已經成功的添加進了93行新的數據
【參考文獻】
1、SSIS_StepV2.pdf文檔
【心得體會】
1.熟悉了sql server 2008的環境和熟練了SOL語言的使用。
2.通過實驗得知,控制流中的數據導出和導入兩個組件其實是前后約束條件的,也就是必須數據導出必須成功了才會執行導入(后面會介紹).另外,所謂的數據導出并不會局限于數據庫的導入與導出,數據流源和數據流目標都可以是Excel,Flat File(txt,csv),XML,DataReader等連接.也就是說同樣可以實現txt導入Excel,或者是XML導入數據庫等操作。
第五篇:BI學習心得
BI學習心得 BI是什么
通過學習理解,可將BI歸結為一句話:從數據中挖取利潤。
1.1 初識BI 初識BI的概念,是從《BI相關知識介紹.ppt》開始的。通讀之后,我了解三件事: 1)、沃爾瑪將啤酒和尿布擺在一起出售,提高了啤酒的銷量; 2)、BI是Business Intelligence的縮寫,商務智能。官方定義:是一種運用了數據倉庫、在線分析和數據挖掘等技術來處理和分析數據的嶄新技術。3)、BI的分析過程圖,如下:
圖1.1—BI Analyse的過程
同時,幻燈片中還介紹了大量的中英文概念,讓我非常的混亂。為了更好的學習了解BI,首先需要克服的就是名詞解釋,其次是通過實例了解BI的應用。1.2 常見名詞淺釋
? ETL:數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。? Data Warehouse:數據倉庫,是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。與其他數據庫應用不同的是,數據倉庫更像一種過程,對分布在企業內部各處的業務數據的整合、加工和分析的過程。而不是一種可以購買的產品。? Data mart:數據集市,或者叫做“小數據倉庫”。如果說數據倉庫是建立在企業級的數據模型之上的話。那么數據集市就是企業級數據倉庫的一個子集,他主要面向部門級業務,并且只是面向某個特定的主題。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。? OLAP(On-Line Analytical Processing):聯機在線分析處理,是一類軟件技術,它們使用戶(業務分析師、經理和執行官)能夠以交互形式快速、一致地探查數據,用戶看到的是經過轉換后的原始數據的各種信息視圖,它們可以反映業務的真實維數。? ROLAP:基于Codd的12條準則,各個軟件開發廠家見仁見智,其中一個流派,認為可以沿用關系型數據庫來存儲多維數據,于是,基于稀疏矩陣表示方法的星型結構(star schema)就出現了。后來又演化出雪花結構。為了與多維數據庫相區別,則把基于關系型數據庫的OLAP稱為Relational OLAP,簡稱ROLAP。代表產品有Informix Metacube、Microsoft SQL Server OLAP Services。? MOLAP:Arbor Software嚴格遵照Codd的定義,自行建立了多維數據庫,來存放聯機分析系統數據,開創了多維數據存儲的先河,后來的很多家公司紛紛采用多維數據存儲。被人們稱為Muiltdimension OLAP,簡稱MOLAP,代表產品有Hyperion(原Arbor Software)Essbase、Showcase Strategy等。? Client OLAP:相對于Server OLAP而言。部分分析工具廠家建議把部分數據下載到本地,為用戶提供本地的多維分析。代表產品有Brio Designer,Business Object。? DSS:決策支持系統(Decision Support System),相當于基于數據倉庫的應用。決策支持就是在收集所有有關數據和信息,經過加工整理,來為企業決策管理層提供信息,為決策者的決策提供依據。? Ad hoc query:即席查詢,數據庫應用最普遍的一種查詢,利用數據倉庫技術,可以讓用戶隨時可以面對數據庫,獲取所希望的數據。? EIS:主管信息系統(Executive Information System),指為了滿足無法專注于計算機技術的領導人員的信息查詢需求,而特意制定的以簡單的圖形界面訪問數據倉庫的一種應用。
? BPR:業務流程重整(Business Process Reengineering),指利用數據倉庫技術,發現并糾正企業業務流程中的弊端的一項工作,數據倉庫的重要作用之一。? BI:商業智能(Business Intelligence),指數據倉庫相關技術與應用的通稱。指利用各種智能技術,來提升企業的商業競爭力。? Data Mining:數據挖掘,Data Mining是一種決策支持過程,它主要基于AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策 ? CRM:客戶關系管理(Customer Relationship Management),數據倉庫是以數據庫技術為基礎但又與傳統的數據庫應用有著本質區別的新技術,CRM就是基于數據倉庫技術的一種新應用。但是,從商業運作的角度來講,CRM其實應該算是一個古老的“應用”了。比如,酒店對客人信息的管理,如果某個客人是某酒店的老主顧,那么該酒店很自然地會知道這位客人的某些習慣和喜好,如是否喜歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么樣的早餐,等等。當客人再次光臨時,不用客人自己提出來,酒店就會提供客人所喜歡的房間和服務。這就是一種CRM。? Meta Data:元數據,關于數據倉庫的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。同時元數據還包含關于數據含義的商業信息,所有這些信息都應當妥善保存,并很好地管理。為數據倉庫的發展和使用提供方便。
1.3 實例應用
BI應用實例:
某家上市公司的銷售副總裁每周五下午要和全國各大區的銷售總監開視頻會議,一般情況下他需要事先了解一下公司上周的銷售情況,這時他進入公司的商業智能系統,查看銷售周報表,報表的橫坐標是時間,縱坐標有:“銷售目標”、“實際收入”、“收入指標達成率”。這張報表顯示了每周銷售變化情況。
副總裁為了進一步弄清楚某一大區及大區下屬的幾大城市的銷售數據,只要使用鉆取功能,用鼠標輕輕在屏幕上點擊幾下,該大區及大區下各城市的銷售數據便一目了然。鉆取即這種從“全國水平”(宏觀)到“地區水平”(微觀)的分析過程。然后,副總裁需要了解在某一區域的銷售數據中,哪些是直銷完成的,哪些是渠道完成的,這種從報表視圖的某一個角度到另外一個角度的視角轉換過程被稱為“切片”。鉆取和切片的操作都非常簡便,只需用鼠標簡單地在電子報表上輕點幾下即可完成。在上面的分析過程中,涉及到了“維”這個概念,即觀察問題的角度。
這位銷售副總裁的分析維度包括:時間、大區、銷售模式,以這三個維為三個軸線來觀察數據,就形成了一個信息立方體,立方體的每一個小單元都包含了企業管理者需要追蹤的消息,包括一個特定地區、特定時間、特定銷售渠道的各項指標的全部信息,通過對立方體的切片或切塊分割,可以從不同的視角觀察各種數據。通過“鉆取”和“切片”,這位副總裁知道了銷售情況的變化是哪個大區、哪些城市、直銷或者代理渠道出現了問題,這種靈活快速的查詢和分析如果通過過去的ERP報表查詢是很難完成的。
通過實例可知,使用BI系統,可以將不同的數據源關聯對應在一起,對企業信息進行管理、分析、自動生成報表,提高分析決策的效率和質量。
1.4 BI的定義
商務智能是指將企業的各種數據及時地轉換為企業管理者感興趣的信息(或者知識),并以各種方式展現出來,幫助企業管理者進行科學決策,加強企業的競爭優勢。這里的數據不僅僅指企業內部的各種數據,而且包括企業外部的數據,例如行業、市場狀況和客戶資源的數據等等。
從技術角度看,商務智能的過程是企業的決策人員以企業中的數據倉庫為基礎,經由聯機分析處理工具、數據挖掘工具加上決策規劃人員的專業知識,從數據中獲得有用的信息和知識,幫助企業獲取利潤。
從應用角度看,商務智能幫助用戶對商業數據進行聯機分析處理和數據挖掘,例如預測發展趨勢、輔助決策、對客戶進行分類、挖掘潛在客戶等等。
從數據角度看,商務智能使得很多事務性的數據經過抽取、轉換之后存入數據倉庫,經過聚集、切片或者分類等操作之后形成有用的信息、規則,來幫助企業的決策者進行正確的決策。
綜上所述,我認為
BI的定義:商務智能是利用各種技術,對數據進行收集、存儲、分析并提供可視化界面顯示,從而更容易、快捷的獲得信息知識,幫助管理者做出更好的業務決策。BI技術簡析
通過閱讀資料,我認為把商業智能看成是一種解決方案的說法比較恰當。它是將數據倉庫、OLAP和數據挖掘等技術組合到一起的綜合運用。BI技術的關鍵是將來自不同的業務系統數據庫中的數據,提取出來,進行清理以保證數據的正確性,然后經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合并到數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最后將知識呈現給管理者,為管理者的決策過程提供支持。商業智能的這個基本過程如圖所示:
圖2—BI結構圖
一些文章中將BI分為四個主要階段:數據預處理、建立數據倉庫、數據分析、數據展現。同時認為數據倉庫、OLAP和數據挖掘技術是商業智能的三大技術支柱。2.1 數據預處理——ETL ETL是商業智能(BI)的重要組成部分,是英文Extract-Transform-Load的縮寫,即填充、更新數據倉庫的數據抽取、轉換、裝載的過程。這是實現商業智能之前的數據采集步驟。這一步驟完成之后,對庫中數據的數據挖掘、分析處理才可以進行。
對于ETL而言,“是什么”是很容易理解的,也就是將分散的、不易利用的數據進行整理,變成規則清晰的、易于利用的、(可能同時還是)集中的數據。
2.1.1 ETL設計
ETL的設計分三部分:數據抽取、數據的清洗轉換、數據的加載。數據的抽取是從各個不同的數據源抽取到ODS(OperationalDataStore,操作型數據存儲)中——這個過程也可以做一些數據的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL三個部分中,花費時間最長的是“T”(Transform,清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。數據的加載一般在數據清洗完了之后直接寫入DW(DataWarehousing,數據倉庫)中去。
2.1.2 ETL實現
ETL的實現有多種方法,常用的有三種。一種是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服務、Informatic等)實現,一種是SQL方式實現,另外一種是ETL工具和SQL相結合。前兩種方法各有各的優缺點,借助工具可以快速的建立起ETL工程,屏蔽了復雜的編碼任務,提高了速度,降低了難度,但是缺少靈活性。SQL的方法優點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高。第三種是綜合了前面二種的優點,會極大地提高ETL的開發速度和效率。
2.1.3 數據的抽取
這一部分需要在調研階段做大量的工作,首先要搞清楚數據是從幾個業務系統中來,各個業務系統的數據庫服務器運行什么DBMS,是否存在手工數據,手工數據量有多大,是否存在非結構化的數據等等,當收集完這些信息之后才可以進行數據抽取的設計。
1、對于與存放DW的數據庫系統相同的數據源處理方法
這一類數據源在設計上比較容易。一般情況下,DBMS(SQLServer、Oracle)都會提供數據庫鏈接功能,在DW數據庫服務器和原業務系統之間建立直接的鏈接關系就可以寫Select語句直接訪問。
2、對于與DW數據庫系統不同的數據源的處理方法
對于這一類數據源,一般情況下也可以通過ODBC的方式建立數據庫鏈接——如SQLServer和Oracle之間。如果不能建立數據庫鏈接,可以有兩種方式完成,一種是通過工具將源數據導出成.txt或者是.xls文件,然后再將這些源系統文件導入到ODS中。另外一種方法是通過程序接口來完成。
3、對于文件類型數據源(.txt,.xls)可以培訓業務人員利用數據庫工具將這些數據導入到指定的數據庫,然后從指定的數據庫中抽取。或者還可以借助工具實現,如SQLServer2005的SSIS服務的平面數據源和平面目標等組件導入ODS中去。
4、增量更新的問題
對于數據量大的系統,必須考慮增量抽取。一般情況下,業務系統會記錄業務發生的時間,我們可以用來做增量的標志,每次抽取之前首先判斷ODS中記錄最大的時間,然后根據這個時間去業務系統取大于這個時間所有的記錄。利用業務系統的時間戳,一般情況下,業務系統沒有或者部分有時間戳。
2.1.4 數據的清洗轉換
一般情況下,數據倉庫分為ODS、DW兩部分。通常的做法是從業務系統到ODS做清洗,將臟數據和不完整數據過濾掉,在從ODS到DW的過程中轉換,進行一些業務規則的計算和聚合。
1、數據清洗
數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。
(1)不完整的數據:這一類數據主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。對于這一類數據過濾出來,按缺失的內容分別寫入不同Excel文件向客戶提交,要求在規定的時間內補全。補全后才寫入數據倉庫。
(2)錯誤的數據:這一類錯誤產生的原因是業務系統不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數據庫造成的,比如數值數據輸成全角數字字符、字符串數據后面有一個回車操作、日期格式不正確、日期越界等。這一類數據也要分類,對于類似于全角字符、數據前后有不可見字符的問題,只能通過寫SQL語句的方式找出來,然后要求客戶在業務系統修正之后抽取。日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗,這一類錯誤需要去業務系統數據庫用SQL的方式挑出來,交給業務主管部門要求限期修正,修正之后再抽取。
(3)重復的數據:對于這一類數據——特別是維表中會出現這種情況——將重復數據記錄的所有字段導出來,讓客戶確認并整理。
數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對于是否過濾,是否修正一般要求客戶確認,對于過濾掉的數據,寫入Excel文件或者將過濾數據寫入數據表,在ETL開發的初期可以每天向業務單位發送過濾數據的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數據的依據。數據清洗需要注意的是不要將有用的數據過濾掉,對于每個過濾規則認真進行驗證,并要用戶確認。
2、數據轉換 數據轉換的任務主要進行不一致的數據轉換、數據粒度的轉換,以及一些商務規則的計算。
(1)不一致數據轉換:這個過程是一個整合的過程,將不同業務系統的相同類型的數據統一,比如同一個供應商在結算系統的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統一轉換成一個編碼。
(2)數據粒度的轉換:業務系統一般存儲非常明細的數據,而數據倉庫中數據是用來分析的,不需要非常明細的數據。一般情況下,會將業務系統數據按照數據倉庫粒度進行聚合。
(3)商務規則的計算:不同的企業有不同的業務規則、不同的數據指標,這些指標有的時候不是簡單的加加減減就能完成,這個時候需要在ETL中將這些數據指標計算好了之后存儲在數據倉庫中,以供分析使用。
2.1.5 數據的裝載
ETL的裝載部分,可查詢的資料較少。僅查閱到與抽取在一起的部分描述內容。ETL的核心還是在于T這個過程,也就是轉換,而抽取和裝載一般可以作為轉換的輸入和輸出,或者,它們作為一個單獨的部件,其復雜度沒有轉換部件高。和OLTP系統中不同,那里充滿這單條記錄的insert、update和select等操作,ETL過程一般都是批量操作,例如它的裝載多采用批量裝載工具,一般都是DBMS系統自身附帶的工具,例如Oracle SQLLoader和DB2的autoloader等。
2.1.6 ETL日志、警告發送
1、ETL日志
ETL日志分為三類。一類是執行過程日志,這一部分日志是在ETL執行過程中每執行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數據,流水賬形式。一類是錯誤日志,當某個模塊出錯的時候寫錯誤日志,記錄每次出錯的時間、出錯的模塊以及出錯的信息等。第三類日志是總體日志,只記錄ETL開始時間、結束時間是否成功信息。如果使用ETL工具,ETL工具會自動產生一些日志,這一類日志也可以作為ETL日志的一部分。記錄日志的目的是隨時可以知道ETL運行情況,如果出錯了,可以知道哪里出錯。
2、警告發送
如果ETL出錯了,不僅要形成ETL出錯日志,而且要向系統管理員發送警告。發送警告的方式多種,一般常用的就是給系統管理員發送郵件,并附上出錯的信息,方便管理員排查錯誤。
ETL是BI項目的關鍵部分,也是一個長期的過程,只有不斷的發現問題并解決問題,才能使ETL運行效率更高,為BI項目后期開發提供準確的數據。
2.2 BI支撐技術——數據倉庫/數據集市
數據倉庫:商業智能的基礎。
對于一個企業來說,最關鍵也最為重要的是,如何以一種有效的方式逐步整理各個業務處理系統中積累下來的歷史數據,并通過靈活有效的方式為各級業務人員提供統一的信息視圖,從而在整個企業內實現真正的信息共享。數據倉庫技術正好滿足了這一需求。數據倉庫是商業智能系統的基礎,如果沒有數據倉庫,沒有企業數據的融合,數據分析就成為了無源之水。
數據倉庫定義為:“一個面向主題的、集成的、反映歷史變化的、相對穩定的數據集合,用于支持管理決策”。與傳統的事物處理系統有不同的是,數據倉庫是一種過程,它是對分布在組織或企業內部各處的業務數據進行整合、加工和分析的過程。而不是一種可以購買的產品。
2.2.1 數據倉庫常用術語
? 數據倉庫
數據倉庫是一個支持管理決策的數據集合。數據是面向主題的、集成的、不易丟失的并且是時間變量。
數據倉庫是所有操作環境和外部數據源的快照集合。它并不需要非常精確,因為它必須在特定的時間基礎上從操作環境中提取出來。? 數據集市
數據倉庫只限于單個主題的區域,例如顧客、部門、地點等。數據集市在從數據倉庫獲取數據時可以依賴于數據倉庫,或者當它們從操作系統中獲取數據時就不依賴于數據倉庫。? 事實
事實是數據倉庫中的信息單元,也是多維空間中的一個單元,受分析單元的限制。事實存儲于一張表中(當使用關系數據庫時)或者是多維數據庫中的一個單元。每個事實包括關于事實(收入、價值、滿意記錄等)的基本信息,并且與維度相關。在某些情況下,當所有的必要信息都存儲于維度中時,單純的事實出現就是對于數據倉庫足夠的信息。我們稍后討論有關缺無事實的情況。? 維度
維度是綁定由坐標系定義的空間的坐標系的軸線。數據倉庫中的坐標系定義了數據單元,其中包含事實。
坐標系的一個例子就是帶有 x 維度和 y 維度的 Cartesian(笛卡爾)坐標系。在數據倉庫中,時間總是維度之一。? 數據挖掘
在數據倉庫的數據中發現新信息的過程被稱為數據挖掘,這些新信息不會從操作系統中獲得。? 分析空間
分析空間是數據倉庫中一定量的數據,用于進行數據挖掘以發現新信息同時支持管理決策。? 切片
一種用來在數據倉庫中將一個維度中的分析空間限制為數據子集的技術。? 切塊
一種用來在數據倉庫中將多個維度中的分析空間限制為數據子集的技術。? 星型模式 一種使用關系數據庫實現多維分析空間的模式,稱為星型模式。星型模式將在本白皮書中稍后進行進一步討論。? 雪花模式
不管什么原因,當星型模式的維度需要進行規范化時,星型模式就演進為雪花模式。
2.2.2 面向主題(Subject-oriented)
“主題”是一個較為抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面。從信息管理的角度看,主題是在一個較高的管理層次上對數據進行綜合、歸類所形成的分析對象;從數據組織的角度看,主題就是一些數據集合,這些數據集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數據本身,還涉及到數據之間的關系。
“面向主題”則表明了數據倉庫中數據組織的基本原則,是指數據倉庫內的信息是按主題進行組織的,而不像傳統事物處理系統那樣單一地按照業務功能及性能要求進行組織。傳統的操作型系統是圍繞公司的應用進行組織。如對一個電信公司來說,應用問題可能是營業受理、專業計費和客戶服務等,而主題范圍可能是客戶、套餐、繳費和欠費等。
2.2.3 集成(Integrated)
“集成”是指數據倉庫中的信息并不是對各個數據源簡單的選擇、抽取,而是首先進行一系列的加工、整理和轉換等來消除源數據中的不一致;同時按照本行業的邏輯模型設計便于查詢及分析的數據倉庫。然后按照組織或企業的需求,針對不同的主題對數據進行某種程度的綜合、概括和聚集,將源數據加載進數據倉庫。經過這樣的處理,數據就具有了集成性,可以用于決策分析。
2.2.4 反映歷史變化(Time-variant)
“反映歷史變化”是指數據倉庫內的信息并不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。而信息本身相對穩定,是指一旦某個數據進入數據倉庫以后,一般很少進行修改,更多的是對信息進行查詢操作。
2.2.5 相對穩定(Non-volatile)
“相對穩定”是指數據一旦進入數據倉庫,一般情況下會被長期保留,所涉及的數據操作也主要是查詢、分析,很少會被修改或刪除,通常也只需要定期地加載和刷新。相對穩定性保證了數據倉庫中的數據能夠真實地反映歷史變化。
數據倉庫中所存放的數據在物理上是分離的。由于這種分離,數據倉庫不需要事務處理、恢復和并發控制機制。通常它只需要兩種數據訪問:數據的初始化裝入和數據訪問。
2.2.6 了解實時數據倉庫的定義
實時數據倉庫是兩種事物的組合:實時行為和數據倉庫。實時行為是一種即時發生的行為。行為可以是任何事情,如超市中小商品的銷售行為。一旦行為完成,就有關于它的數據。數據倉庫捕獲有關商業行為的數據,而實時數據倉庫在商業行為發生時就捕獲數據。當商業行為完成時,相關數據就已經進入到數據倉庫并且能立即使用。換句話說,實時數據倉庫是這樣一個系統,只要行為發生、數據變得可用時,就能從中獲得信息。
實時vs.近似實時之間的區別可以下面一個詞概括:反應時間。反應時間是指行為的完成時間和該行為的數據在數據倉庫中可利用時間之間的延遲。實時情況下,反應時間是可以忽略不計的;在近似實時情況下,反應時間是一段時間,比如2小時。為了使系統變得更精確,一些人使用了“實時”這個概念。
2.3 BI分析技術——OLAP 2.3.1 什么是OLAP
當今的數據處理大致可以分成兩大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。下表列出了OLTP與OLAP之間的比較。
聯機分析處理(OLAP)是以海量數據為基礎的復雜分析技術。它支持各級管理決策人員從不同的角度、快速靈活地對數據倉庫中的數據進行復雜查詢和多維分析處理,并且能以直觀易懂的形式將查詢和分析結果展現給決策人員。
OLAP是使分析人員、管理人員或執行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或者滿足在多維環境下特定的查詢和報表需求,它的技術核心是“維”這個概念。
區別于傳統的聯機事務處理(OLTP)系統,OLAP有12條準則:
1、OLAP模型必須提供多維概念視圖
2、透明性準則
3、存取能力推測
4、穩定的報表能力
5、客戶/服務器體系結構
6、維的等同性準則
7、動態的稀疏矩陣處理準則
8、多用戶支持能力準則
9、非受限的跨維操作
10、直觀的數據操縱
11、靈活的報表生成
12、不受限的維與聚集層次 雖然隨著技術的發展,部分準則有所突破,但這些準則仍然是OLAP技術的基礎。
2.3.2 OLAP核心技術——維
“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關系,這種層次關系有時會相當復雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數據進行比較。因此OLAP也可以說是多維數據分析工具的集合。
OLAP的基本多維分析操作有鉆取(roll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(pivot)、drill across、drill through等。? 鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取(roll up)和向下鉆取(drill down)。? roll up是在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數; ? 而drill down則相反,它從匯總數據深入到細節數據進行觀察或增加新維。? 切片和切塊是在一部分維上選定值后,關心度量數據在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。? 旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。? Drill across:(未找到相關介紹)? Drill through:(未找到相關介紹)
2.3.3 OLAP的分類
OLAP有多種實現方法,根據存儲數據的方式不同可以分為ROLAP、MOLAP、HOLAP。ROLAP 表示基于關系數據庫的OLAP實現(Relational OLAP)。以關系數據庫為核心,以關系型結構進行多維數據的表示和存儲。ROLAP將多維數據庫的多維結構劃分為兩類表:一類是事實表,用來存儲數據和維關鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關鍵字和外關鍵字聯系在一起,形成了“星型模式”。對于層次復雜的維,為避免冗余數據占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為“雪花模式”。ROLAP通常使用三層架構,其數據庫層和應用邏輯層是分離的,并且其數據存儲在關系型數據庫中
MOLAP 表示基于多維數據組織的OLAP實現(Multidimensional OLAP)。以多維數據組織方式為核心,也就是說,MOLAP使用多維數組存儲數據。多維數據在存儲中將形成“立方塊(Cube)”的結構,在MOLAP 中對“立方塊”的“旋轉”、“切塊”、“切片”是產生多維數據報表的主要技術。
MOLAPS和ROLAPS相比,具有更短的處理時間,更快的響應速度,并且對于用戶需求更為靈活。而ROLAPS在處理的數據總量和支持的客戶數方面強于MOLAPS。
Hybrid online analytical processing(混合聯機分析處理,HOLAP),HOLAP表示基于混合數據組織的OLAP實現。如低層是關系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。從字面上我們可以大致看出,HOLAP是上面兩種分類的融合,它同時利用了多維數據庫和關系數據庫。HOLAP的優勢在于它可以在性能需求和存儲量需求間找到一個平衡點,從而充分利用系統潛能。
還有其他的一些實現OLAP的方法,如提供一個專用的SQL Server,對某些存儲模式(如星型、雪片型)提供對SQL查詢的特殊支持。
2.3.4 OLAP工具描述
OLAP 工具是針對特定問題的聯機數據訪問與分析。它通過多維的方式對數據進行分析、查詢和報表。維是人們觀察數據的特定角度。例如,一個企業在考慮產品的銷售情況時,通常從時間、地區和產品的不同角度來深入觀察產品的銷售情況。這里的時間、地區和產品就是維。而這些維的不同組合和所考察的度量指標構成的多維數組則是OLAP分析的基礎,可形式化表示為(維1,維2,??,維n,度量指標),如(地區、時間、產品、銷售額)。多維分析是指對以多維形式組織起來的數據采取切片(Slice)、切塊(Dice)、鉆取(Drill-down和Roll-up)、旋轉(Pivot)等各種分析動作,以求剖析數據,使用戶能從多個角度、多側面地觀察數據庫中的數據,從而深入理解包含在數據中的信息。
2.4 BI分析技術——數據挖掘
2.4.1 什么是數據挖掘
數據挖掘又稱知識發現(Knowledge Discovery in Database,簡稱KDD),是從大量數據中抽取有意義的、隱含的、以前未知的并有潛在使用價值的知識的過程。數據挖掘是一個多學科交叉性學科,它涉及統計學、機器學習、數據庫、模式識別、可視化以及高性能計算等多個學科。利用數據挖掘技術可以分析各種類型的數據,例如結構化數據、半結構化數據以及非結構化數據、靜態的歷史數據和動態數據流數據等。
2.4.2 數據挖掘分類
數據挖掘涉及的學科領域和方法很多,有人工智能、數據統計、可視化、并行計算等。數據挖掘有多種分類方法。
? 根據挖掘任務
可分為分類模型發現、聚類、關聯規則發現、序列分析、偏差分析、數據可視化等。(1)分類(Classification)其旨在生成一個分類函數或分類模型,該模型能把數據庫中的數據項映射到給定類別中的某一個。既可以用此模型分析已有的數據,也可以用它來預測未來的數據。
(2)聚集(Clustering)聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴于預先定義好的類,不需要訓練集。
(3)數據可視化(Description and Visualization)數據可視化嚴格地講不是一個單獨的數據挖掘任務,它被用來支持其他挖掘任務。可視化是采用圖形、圖表等易于理解的方式表達數據挖掘結果。
(4)關聯規則(Affinity grouping or association rules)關聯規則是尋找數據庫中值的相關性,主要是尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相關性。(5)序列分析(Sequence Analysis)序列模式分析同樣也是試圖找出數據之間的聯系。但它的側重點在于分析數據之間前后(因果)關系,因此對數據往往要求引入時間屬性。序列模式分析非常適于尋找事物的發生趨勢或重復性模式。
(6)偏差分析(Deviation Analysis)是用來發現與正常情況不同的異常和變化,并進一步分析這種變化是否是有意的詐騙行為,還是正常的變化。如果是異常行為,則提示預防措施;如果是正常的變化,那么就需要更新數據庫記錄。
? 根據挖掘對象
可分為關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫以及環球網Web。
? 根據挖掘方法
可粗略地分為:機器學習方法、統計方法、神經網絡方法、決策樹、可視化、最近鄰技術等。在機器學習中,可細分為歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺傳算法等;在統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。
2.4.3 數據挖掘技術
數據挖掘技術可分為描述型數據挖掘和預測型數據挖掘兩種。描述型數據挖掘包括數據總結、聚類及關聯分析等。預測型數據挖掘包括分類、回歸及時間序列分析等。
1、數據總結
繼承于數據分析中的統計分析。數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、聚類分析
是把整個數據庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數據盡量相似。這種方法通常用于客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。
聚類分析是根據物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。其主要依據是聚到同一個組中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。
以客戶關系管理為例,利用聚類技術,根據客戶的個人特征以及消費數據,可以將客戶群體進行細分。例如,可以得到這樣的一個消費群體:女性占91%,全部無子女、年齡在31到40歲占70%,高消費級別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對不同的客戶群,可以實施不同的營銷和服務方式,從而提高客戶的滿意度。
對于空間數據,根據地理位置以及障礙物的存在情況可以自動進行區域劃分。例如,根據分布在不同地理位置的ATM機的情況將居民進行區域劃分,根據這一信息,可以有效地進行ATM機的設置規劃,避免浪費,同時也避免失掉每一個商機。
對于文本數據,利用聚類技術可以根據文檔的內容自動劃分類別,從而便于文本的檢索。
3、關聯分析
關聯分析主要用于發現不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。其主要依據是事件發生的概率和條件概率應該符合一定的統計意義。
對于結構化的數據,以客戶的購買習慣數據為例,利用關聯分析,可以發現客戶的關聯購買需要。例如,一個開設儲蓄賬戶的客戶很可能同時進行債券交易和股票交易,購買紙尿褲的男顧客經常同時購買啤酒等。利用這種知識可以采取積極的營銷策略,擴展客戶購買的產品范圍,吸引更多的客戶。通過調整商品的布局便于顧客買到經常同時購買的商品,或者通過降低一種商品的價格來促進另一種商品的銷售等。
對于非結構化的數據,以空間數據為例,利用關聯分析,可以發現地理位置的關聯性。例如,85%的靠近高速公路的大城鎮與水相鄰,或者發現通常與高爾夫球場相鄰的對象等。
4、分類分析
目的是構造一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1, v2,...,vn;c),其中vi表示字段值,c表示類別。
分類分析通過分析具有類別的樣本的特點,得到決定樣本屬于各種類別的規則或方法。利用這些規則和方法對未知類別的樣本分類時應該具有一定的準確度。其主要方法有基于統計學的貝葉斯方法、神經網絡方法、決策樹方法以及support vector machines等。利用分類技術,可以根據顧客的消費水平和基本特征對顧客進行分類,找出對商家有較大利益貢獻的重要客戶的特征,通過對其進行個性化服務,提高他們的忠誠度。
利用分類技術,可以將大量的半結構化的文本數據,如WEB頁面、電子郵件等進行分類。可以將圖片進行分類,例如,根據已有圖片的特點和類別,可以判定一幅圖片屬于何種類型的規則。對于空間數據,也可以進行分類分析,例如,可以根據房屋的地理位置決定房屋的檔次。
5、回歸
是通過具有已知值的變量來預測其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標準統計技術。一般同一個模型既可用于回歸也可用于分類。常見的算法有邏輯回歸、決策樹、神經網絡等。
6、時間序列
時間序列是用變量過去的值來預測未來的值。
時間序列分析的是隨時間而變化的事件序列,目的是預測未來發展趨勢,或者尋找相似發展模式或者是發現周期性發展規律。
7、序列分析
序列分析技術主要用于發現一定時間間隔內接連發生的事件。這些事件構成一個序列,發現的序列應該具有普遍意義,其依據除了統計上的概率之外,還要加上時間的約束。
8、預測
預測與分類類似,但預測是根據樣本的已知特征估算某個連續類型的變量的取值的過程,而分類則只是用于判別樣本所屬的離散類別而已。預測常用的技術是回歸分析。
2.5 BI表示/展現技術——信息可視化與Web應用
數據經過分析后得到的即為商業智能。為了使它們直觀、簡練地呈現在用戶面前,需要采用一定的形式表示和發布出來,通常采用的是一些查詢和報表工具。不過,目前越來越多的分析結果是以可視化的形式表示出來。這就需要采用信息可視化技術。所謂信息可視化是指以圖形、圖像、虛擬現實等易為人們所辨識的方式展現原始數據間的復雜關系、潛在信息以及發展趨勢,以便我們能夠更好地利用所掌握的信息資源。
隨著Web應用的普及,商業智能的解決方案能夠提供基于Web的應用服務,這樣就擴展了商業智能的信息發布范圍,享有訪問權限的用戶只要能夠登陸互連網,就可以及時訪問自己所關心的內容。作為基于Web的商業智能解決方案,需要一些基本的組成要素,包括基于Web的商業智能服務器、會話管理服務、文件管理服務、調度、分配和通知服務、裝載平衡服務和應用服務等。以應用服務為例,需要為用戶的查詢、分析和報表請求提供瀏覽器插件。由于商業智能應用涉及到對多個分散在各地的異構數據庫的存取,因此還需要CORBA、IIOP協議和Java、XML語言的支持。