第一篇:數據挖掘在房地產營銷中的應用
文章摘要:信息資源的分析、整合在房地產行業的競爭中起著越來越重要的作用。數據挖掘作為一種系統地檢查和理解大量數據的工具,能有效地幫助房地產企業從不斷積累與更新的數據中提取有價值的信息。因此,數據挖掘被引入到房地產市場研究領域,并日益受到重視。本文從數據挖掘在房地產行業中的市場研究價值入手,分析了數據挖掘在房地產市場研究尤其是客戶信息中的應用,并加以舉例說明。關鍵詞:數據挖掘 關聯分析 分類
一、房地產行業需要數據挖掘技術的支持
隨著房地產行業競爭的加劇,房地產企業要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業擁有大量的數據積累,包括行業信息、經濟環境信息、客戶信息等。這些數據是房地產企業市場運作的重要參考。面對快速增長的海量數據收集,企業需要有力的數據分析工具將“豐富的數據”轉換成“有價值的知識”,否則大量的數據將成為“數據豐富,但信息貧乏”的“數據墳墓”。
數據挖掘(Data Mining)是從大量數據中發現潛在關聯、模式,做出預測性分析的有效工具,它是現有的一些人工智能、統計學等技術在數據庫領域中的應用。應用數據挖掘有助于發現業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出解決問題所需要的關鍵因素,使企業處于更有利的競爭位置。
二、數據挖掘在房地產行業的應用
1.數據挖掘的概念
對于企業的海量信息存儲,數據挖掘是一種系統地檢查和理解大量數據的工具。數據挖掘根據預定義的商業目標,對大量的企業數據進行探索和分析,揭示其中隱含的商業規律,并進一步生成相應的分析、預測模型。
數據挖掘發現的是以前未知的、可理解的、可執行的信息,所以也被稱為“知識發現”(Knowledge Discovery in Databases)。與統計分析技術相比,數據挖掘技術能很好地和數據庫技術相結合,而且數據挖掘工具用以發現數據中隱含的商業規律的方法已不局限于統計技術,還包括神經網絡、遺傳算法、自組織圖、神經模糊系統等統計學科以外的方法。數據挖掘發現的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統計分析師的背景知識,再被統計分析師應用到數據分析中。
數據挖掘任務一般可以分兩類:描述和預測。描述性挖掘任務刻劃數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,以進行預測。具體來講,數據挖掘主要用于解決以下幾種不同事情:
(1)關聯分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一事件中出現的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。
(2)分類(Classification)和預測(Prediction)。分類根據某種標準將數據庫記錄分類到許多預先定義好的類別中。例如,將房地產企業客戶根據消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業、家庭構成等個人屬性,預測他們在購房支出;如將房地產企業客戶分為潛在客戶、購買者和實際客戶。分類系統可以產生這樣的規則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業務訪問,那么他/她是一個購買者。”
(3)聚類(Clustering)是把整個數據庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數據盡量相似。聚類與分類不同:分類之前已經知道要把數據分成哪幾類,每個類的性質是什么;聚類則恰恰相反。
(4)演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發展趨勢、社會經濟發展趨勢進行房地產消費趨向的分析。
(5)描述和可視化(Description and Visualization),對數據進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區域的形象化描述。
2.數據挖掘的市場研究價值
數據挖掘技術在商業上實際應用十分豐富。應用數據挖掘技術,可以幫助房地產行業找出有價值的信息,十分有助于企業發現商機、制定開發計劃與營銷策略。對于房地產市場研究,數據挖掘可以應用于宏觀經濟形勢研究、市場發展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:
(1)宏觀經濟形勢研究——1)房地產周期時序分析中的相似搜索:可找出已有房地產周期數據庫中與給定查詢序列最接近的數據序列。比較識別兩個相似時間段間數據系列的主要差異,對房地產市場的宏觀分析很有參考價值。2)宏觀經濟形勢研究——房地產周期一般性因素關聯分析:一般而言,房地產周期是影響不動產收益的一系列因素組成的總體概念。各因素均會對總體房地產周期起決定作用。關聯分析方法可用于幫助發現各因素和房地產周期間的交叉與聯系。
(2)市場發展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團購買房地產比重的擬合與分析;3)對房地產銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發展水平等動態的分析、總結和評價,及時獲得準確數據,輔助經營決策。
(3)樓盤供應研究——地理發展空間的多維分析:綜合人口住房條件及分布、土地利用現狀及政府規劃、交通現狀分布信息,通過聚集及層次化描述,發掘區域內需建立的高檔別墅、高、中、低檔公寓的數量及各自的地理位置和發展計劃。
(4)客戶研究——客戶信息的多維關聯和序列模式分析:關聯分析可在客戶信息中發現客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。
目前,專業市場研究公司對房地產行業的調研主要集中在客戶需求分析方面,并積累了一定的經驗,因此,本文主要探討房地產客戶信息的數據挖掘。
3.數據挖掘在房地產客戶研究中有著廣泛的應用
房地產行業的客戶信息有許多特點,如下圖所示,一方面房地產行業面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。
對于復雜、多樣而且擅變的客戶信息,房地產行業客戶信息的數據挖掘有助于識別客戶購買行為,發現客戶購買模式和趨勢。從而,幫助房地產企業改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業成本。根據已有的數據挖掘經驗,數據挖掘在房地產行業的應用可以歸納成以下幾個方面:
4.明確商業目標
三、如何在房地產行業應用數據挖掘技術
應用數據挖掘的首要任務就是明確需要達到什么樣的商業目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測數據挖掘效果,判斷建立的模型的有效性。例如,下列目標是大而空的目標:獲得客戶行為的了解;在數據中發現有用的模型;發現一些有意思得東西。而另外一些目標有較強操作性:發現哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。
5.數據準備
基于數據挖掘的商業目標,提取所需要的數據。為了保證數據的質量,除了對數據進行必要地檢查和修正外,還需要考慮不同源之間數據的一致性問題。
如果數據集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當的減少輸入的字段。常用的方法包括:“描述型數據挖掘”、連結分析等。
很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數據。因此,在數據準備階段需考慮是否創建一些新的變量。
處理缺失數據也是數據準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。
6.建立模型
建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發對數據的理解并加以修改,甚至改變最初對問題的定義。
一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數據的預處理工作。例如,神經網絡需要做數據轉換,有些數據挖掘工具可能對輸入數據的格式有特定的限制等。
接下來是建立模型的工作。對于通過數據挖掘建立的模型需要有一定的數據來測試和驗證。對于預測性任務,需通過反復的測試、驗證、訓練,才能不斷提高模型的準確率。
大部分數據挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經網絡既可以用于建立分類樹,也可建立回歸樹。
7.輸出結果的評價和解釋
模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數據的不同發生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。
直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意后再向大范圍推廣。
8.實施
模型在建立并經驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數據庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。
在應用模型之后,還要不斷監控模型的效果。即使模型的運用很成功,也不能放棄監控。因為事物在不斷發展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。
四、應用舉例:基于客戶分類的關聯分析
1.商業目標
為了更詳盡地了解客戶的消費決策,本案例設計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結果可以被用于預測性分析,例如預測客戶最傾向于做出哪種購買行為。2.數據準備
本案例中采用某一時點上的房地產消費者需求抽樣調查,取出描述消費者個人屬性和消費特點的字段。
3.建立模型
(1)對數據進行分類
本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。
案例得到的抽樣數據顯示,盡管地理位置是影響一個房地產項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關注程度為分類標準,構建了一個簡單的決策樹。決策樹中根據購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關型五種類型。下表是應用決策樹得到的客戶分類結果。從各客戶群評分的均值和標準差可以看出,各客戶群具有較好的組內相似性和組間差異性,說明所構建的決策樹的分類結果比較理想,可用于進一步的分析。
(2)關聯分析運用關聯分析的目的是尋找數據庫中值的相關性。本例采用基于興趣度的關聯規則挖掘算法,挖掘每類客戶不同屬性間的相關性。經過挖掘,發現一些值得深入探討的關聯,見下表:
注:a)支持率反映了關聯是否是普遍存在的規律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關聯規則描述。
b)可信度反映了關聯規則前提成立的條件下結果成例的概率。本例中,可信度=15%可以解釋為,對應的客戶群中有15個人符合關聯規則的描述。
c)興趣度反映了關聯規則中元素的關系的密切程度。興趣度越大于1說明該規則中的元素的關系越密切,該規則的實際利用價值越大。
d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領域專家設定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。
上表中列出的關聯規則均有較高的支持率、可信度和興趣度。為了更加準確地挖掘關聯規則。對挖掘出的關聯規則更換因果關系,形成新的關聯規則與之進行對比。如下例:
關聯規則A1:地理位置無關型客戶=≥重視物業管理
支持率=9.7% 可信度=30.3% 興趣度=2.4與
關聯規則B1:重視物業管理 =≥地理位置無關型客戶
支持率=9.7% 可信度=76.9% 興趣度=2.4
對比兩個關聯規則將發現,“重視物業管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業管理”的可能性(30.3%)。說明關聯規則B1:重視物業管理=≥地理位置無關型客戶是一條更有意義的關聯規則。
其他被發掘的關聯也可以通過類似的比較,進行深一步的挖掘。在此不再全部做出詳細分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業經驗進行統計分析,往往會因為分析人員的主觀性或者數據量太大難以實施而存在信息提取的局限性。而通過數據挖掘得到的信息,一方面能彌補直接應用統計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業背景知識;另一方面可以通過反復的驗證、機器學習建立模型,直接成為分析人員的分析、預測的工具。
需要說明:
a)本案例的目的在于說明數據挖掘算法的應用價值,得到的結果僅供參考,并不作為定論,而且數據挖掘的結果需要由行業內的商業分析人員判斷:是否真的具有意義,是否有進一步分析、探討的價值。也就是說數據挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業內商業分析人員的分析工作。
b)案例中的數據挖掘作為方法應用的探討,如要生成一個可操作的模型工具還需足夠的數據集支持進行測試、驗證、訓練才能不斷提高模型的準確率。
c)本案例中解決問題的方法不是唯一的,可能應用其他的分類手段、分類標準能得到更好的結果。具體方法的應用要取決于實施人員的建模能力、行業經驗。也就是說,數據挖掘對人員有較高的要求。數據挖掘的人員不僅要有良好的統計概念、建模能力,還要懂得基本的商業和行業概念。
五、房地產行業數據挖掘的應用前景
隨著IT/Internet等新技術發展,市場研究在房地產行業的應用已經不再局限于數據采集和簡單的歸納、數據分析。更高的決策服務是建立在更大量的“數據——信息——知識”的基礎上的,因此數據挖掘、商業智能等概念與技術的引入促進了數據挖掘在房地產行業的應用。與此同時,隨著房地產企業數據挖掘應用的深入,數據、數據挖掘的任務和數據挖掘方法的多樣性將給數據挖掘提出了許多挑戰性的課題。例如:
1、應用地理信息系統(GIS)尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互。
2、web挖掘:由于web上存在大量信息,隨著web的發展,有關web內容挖掘、web日志挖掘等網絡上的數據挖掘將成為數據挖掘中一個最為重要和繁榮的應用領域。房地產公司的企業形象宣傳、營銷、客戶維護等工作都將離不開網絡,也必然將需要web挖掘數據支持。
第二篇:數據挖掘在保險精準營銷中的應用-開題報告
全日制工學(工程)碩士學位論文開題報告
課題來源及研究的目的和意義
1.1 課題來源
自選課題
1.2 選題價值及意義
大型的保險公司已將數據挖掘應用到保險業務中,但由于應用在保險行業的分析模型不是很健全,目前在實際操作中一般都采用套用現成算法的方式,導致其結果不是特別的理想。數據挖掘不只是數據的組織和呈現,而是一個從理解業務需求,尋求解決方案到接受實踐檢驗的完整過程,過程中的每個階段都需要建立科學的方法。數據挖掘是精準營銷創造商業價值的關鍵,也應該是精準營銷重要組成部分。
在保險企業中,應用數據挖掘有以下好處:從業務數據方面看,利用企業經營積累起來的海量數據,經過數據預處理等操作后,并最終挖掘出有用的信息、規則,用來幫助企業的管理者進行正確的決策。站在未來的角度上看,數據挖掘通過對業務數據進行研究與分析,可以預測出企業相關經營方面未來的發展趨勢,基于對客戶群體進行分類,推出滿足客戶需求的相關商業產品,并挖掘出潛在客戶群體等。另外,從目前的發展和運用現狀來看,數據挖掘技術未來發展市場十分廣闊。而且數據挖掘技術與保險企業商業問題的結合也應當是一個必然的過程。隨著保險企業自身經營管理的不斷完善,從海量的業務數據中,獲取有價值的信息和知識,分析并研究客戶喜好及消費行為特征,并推出適合客戶需求的產品,針對客戶進行具體的營銷,贏得市場地位,對于保險企業來說,是未來快速發展、贏得企業生存的關鍵。因此,學習與運用數據挖掘技術,也是保險企業未來人才培養的一個重要方面。
2.國內外在該方向的研究現狀及分析
2.1 精準營銷國內外現狀
精準營銷在國外發達國家已經有幾十年的歷史,己經成為各類型企業的常規營銷方式。杰羅姆·麥卡錫(E.Jerome McCarthy)于1960年在其《基礎營銷》(Basic Marketing)一書中第一次將企業的營銷要素歸結四個基本策略的組合,即著名的“4P’s”理論:產品(Product)、價格(Price)、渠道(Place)、促銷(Promotion),由于這四個詞的英文字頭都是P,再加上策略(Strategy),所以簡稱為“4P’s”。在1976年,“現在營銷學之父” 菲利普·科特勒在其代表作《營銷管理》進一步確認了以4P為核心的營銷組合方法論。
全日制工學(工程)碩士學位論文開題報告
1990年,美國學者羅伯特·勞朋特(RobertLauterborn)教授提出了與傳統營銷的4P相對應的4C營銷理論。4C(Customer、Cost、Convenience、Communication)營銷理論以消費者需求為導向,重新設定了市場營銷組合的四個基本要素:瞄準消費者的需求和期望(Customer)。首先要了解、研究、分析消費者的需要與欲求,而不是先考慮企業能生產什么產品;消費者所愿意支付的成本(Cost)。總的來說,4C理論認為,對現代企業來講,重視產品,更要重視顧客;追求成本,更要追求價格;提供消費者的便利比營銷渠道更重要;營銷活動不單純是在促銷,而是與客戶有效的溝通。4C理論以顧客的便利與滿意為企業營銷的根基,企業必須從消費者的角度出發,為消費者提供滿意的產品和服務,才能在競爭中立于不敗之地。
目前,最為流行的營銷模式是3P3C,Probability(概率):營銷、運營活動以概率為核心,追求精細化和精準率。Product(產品):注重產品功能,強調產品賣點。Prospects(消費者,目標用戶)。Creative(創意,包括文案、活動等)。Channel(渠道)。Cost/Price(成本/價格)。而在這其中,以數據分析挖掘所支撐的目標響應概率(Probability)是核心,在此基礎上將會圍繞產品功能優化,目標用戶細分,活動創意,渠道優化,成本的調整等重要環節和要素,共同促進數據化運營持續完善,甚至成功。
相對于發達國家,精準營銷在中國的發展起步較晚,但是發展速度非常快。三十年改革開放,中國營銷經歷了一個從“無到有”從“有到強”的過程;三十年市場營銷的實踐磨練,中國企業積累了很多營銷經驗、也培養了很多營銷人才、形成了較為系統的營銷理論,從整個大的層面還是積極的、卓有成效的。但是真正意義上的精準營銷在國內的發展起步比較晚,中國企業對于數據庫營銷的核心,包括“客戶識別”“客戶分析”“客戶互動”“客戶體驗”的數據庫營銷專業領域,往往知之甚少,因此中國企業普遍較為缺少精準營銷的意識,與這種現象在一定程度上也體現了精準營銷在中國發展的不成熟。2.2 數據挖掘國內外現狀
在保險業中,美國進行數據挖掘系統研究最為著名的公司是艾克國際科技有限公司(AkuP),其研發的數據挖掘系統能夠提供前后端分析的完整功能,且可以做到對保險客戶進行一對一行銷(One to One Mar-keting)。總體上,其主要功能涵蓋了策略層、戰術層、執行層,詳細包括保險客戶的組成、成長潛力、穩定度,防患客戶流失、進行客戶風險管理,幫助業務人員掌握客戶信息等。根據國外相關研究報告的數據顯示,數據挖掘在國際市場上的營業份額已經遠遠超過了數百億美元。在國外,保險、零售、銀行等企業引入數據挖掘系統相關工具所占的比例最高,這些企業在成功引進數據挖掘
全日制工學(工程)碩士學位論文開題報告
工具以后,銷售營業額、市場份額等相比以前都有大幅提升。因此,基于數據挖掘的應用系統與工具也相繼延伸到國外各行各業的相關領域,發揮著其作用。
20世紀末,數據挖掘在進入中國后,起先在證券業、銀行業得到廣泛的應用與實踐,而保險業是繼前二者之后,才逐漸引入數據挖掘進行海量數據的分析與研究,隨后,采用信息化技術來提高各保險公司的競爭力也成為共識。國內的多數企業,為了追上這股浪潮,緊跟信息化革命的步伐,也投入了相當大的人力、物力、財力等來引進數據挖掘技術。特別是在我國的許多大型國有企業中,比如保險、銀行、證券、電信等,這些企業都擁有海量的數據資源,且企業經濟實力強大,行業規模擴展快速等特點,其在數據挖掘系統應用方面已經邁出了堅實的一步.2.3數據挖掘在保險精準營銷中的應用
保險領域的數據挖掘就是從保險行業所積累的大量數據信息中,通過知識發現技術,發掘感興趣的模式或知識,來滿足保險行業和監管部門的應用要求。數據挖掘技術在保險精準營銷系統中所發揮的重要作用己經逐漸被認同。數據挖掘一開始就是面向應用而誕生的,所要涉及到的挖掘問題主要分為以下倆類:
1.關聯問題。關聯規則研究主要有兩個方向:一是在研究的問題中,假定用戶購買的所有產品是同時一次性購買的,分析的重點就是所有用戶購買的產品之間關聯性;二是序列問題,即假定一個用戶購買的產品的時間是不同的,而且分析時需要突出時間先后上的關聯,這是關聯問題的一種特殊情況。
2.分類問題。分類問題屬于預測性的問題,但又區別于普通的預測問題,其預測的結果是類別而不是具體的數值。例如:對客戶進行分層,基于一個客戶的相關信息,判斷出他屬于哪一層的客戶,未來一段時間是否會購買某類保險?將來是否會成為保險公司的高價值客戶?
圍繞保險領域的不同需求,可將其歸納為:保險產品的設計、營銷方式創新。1.保險產品設計。從保險產品設計與開發的角度出發,分析對于保險條款、保險費率具有重大影響的產品結構、技術結構及所有者結構等因素,滿足市場的實際需要。在研制開發保險產品的過程中,需要充分注意適應這些因素的變化,積極開發各種保險產品;通過分析已購買某種保險的人是否同時購買另一種保險,從而可以推進保險產品的創新,行交叉銷售和增量銷售,提高客戶滿意度。未來的保險市場必將是保險產品不斷得到創新的市場。
2.營銷方式創新。通過對客戶信息的挖掘來支持目標市場的細分和目標客戶群的
全日制工學(工程)碩士學位論文開題報告
定位,制定有針對性的營銷措施,包括保險公司的專職人員、代理人員等傳統渠道以及經紀人、電話、計算機網絡和銀行等輔助渠道,提高客戶響應統率,降低營銷成本。
3.主要研究內容
3.1 技術方案
保險行業在海量數據信息的時代,傳統的營銷模式缺乏針對性。當客戶數量提高、相應的信息量增多、所需保險種類復雜化,如果只依靠傳統的營銷模式來解決問題,那必定帶來很大的人力和財力的損傷,同時會降低工作效率。如此下去,隨著需求的不斷增加或變更,傳統的營銷模式沒有從根本上解決海量信息帶來的挑戰,甚至會流失一部分的客戶。針對精準營銷的主要研究內容如下: 3.1.1 ETL數據預處理
我們要對保險公司提供的原始數據進行預處理后,在可以加載到我們的處理平臺上,這個過程,我們需要做到以下幾部:
(1)數據清洗。數據清洗主要處理空缺值、噪聲數據。針對于空缺值的處理,我們可以采用回歸、貝葉斯形式化方法工具或判定樹歸納等確定空缺值。依靠現有的數據信息來推測空缺值,使空缺值有很大的機會保持與其他屬性之間的聯系。還可以用全部變量來替換空缺值、或是用平均值來填充。針對于噪聲數據,我們可以采用分相或是回歸的辦法來處理。
(2)數據集成。我們從保險公司拿回來的數據,不可能是統一的格式,針對于不同來源的數據,我們要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的實體匹配來進行模式集成。在集成過程,會出現一個屬性多次出現或一個屬性命名不一致的問題,針對屬性冗余的問題,可以用相關分析監測,然后刪除冗余的屬性。
(3)數據轉換。數據轉換的目的就是把數據轉換成有利于進行數據挖掘的形式。針對于數據屬性,我們可以刪除一些無關的屬性、也可以把一些屬性進行維歸約,甚至針對于一些關鍵性的屬性,我們可以細化它的屬性。
3.1.2 并行數據庫運算環境下,提出客戶精確分類和客戶與產品關聯分析組合算法
本文的目的是尋找一種適合保險營銷的算法,來解決目前營銷的困難,營銷的最大的困難就是客戶以及針對于客戶的產品設計。針對于客戶的管理,我們要做到對客戶的分層,分類管理,把客戶按照現居住地,性別,家庭狀況,以及收入情況等屬性進行細分。針對以購買保險的客戶,關聯出已購買的保險種類與細分的屬性之間的
全日制工學(工程)碩士學位論文開題報告
關系,將關聯出的關系應用到潛在客戶,替潛在客戶找到適合自己的產品;根據客戶的生活狀態、家庭狀態,找出適合客戶的隱藏產品,實現針對性、交叉性銷售。3.1.3對挖掘出的結果進行驗證
數據挖掘的模型,是要經過驗證,一般的情況下,置信度在80%以上就可以投入應用中。挖掘結果驗證的方法有兩個,一是對現有數據進行抽樣觀察,用具體的結果支持我們的計算結果,這個是驗證;另一個更重要和更有價值,需要保險公司的業務部門根據我們計算的結果,對客戶進行深入的精準營銷作業,然后搜集指導作業的結果,分析精準定向銷售的成功率的提升情況,用實際業績的數據來驗證我們的研究成果。
3.2 關鍵技術方法
關鍵問題一:產品分類、客戶分層,客戶分類。特別是客戶分類是精準營銷的前提。當前壽險行業(我們目前能拿到主要就是壽險企業數據)的客戶的分類,一般是基于下面幾個分類模式的:地理變量、人口統計變量、心理變量、行為變量。由于是本地保險企業某個范圍內的數據,地理變量的影響很小,人口統計變量對壽險的影響特別大,是本課題的研究重點。中國人對保險產品的認知和偏好,明顯與西方不同,而保險行業在中國的真正的發展時間還很短,很多與中國國情和文化有關聯的問題都沒有得到比較深入的研究。比如,提出兩個有關客戶分類的問題,一是“代溝”,二是“家庭關系”。代溝問題是大家常談的社會問題,中國最近30年發生劇烈的社會變革,年齡跨度幾年的人,其對社會的認知模式和消費習慣就可能有重大的區別,必然影響保險產品的銷售趨向,那么如何在保險客戶數據中,找到并比較準確的“代溝分類閾值”?另一個“家庭關系”,建立穩定家庭的客戶顯然是購買人壽類保險產品的主力,而購買保險產品的過程中,中國體現了很強的“家主決策權”,在客戶分類的過程中,家庭關系作為一個特殊的、多指向的、數據元內部有交叉關系的變量組,必然會深刻影響客戶的分類方法,以及在后面依附于分類計算結果之上的關聯計算方法和計算結果。這是本課題研究的另一個重要問題。本課題對保險用戶的分類方法雖然還屬于當前流行的大類分析方法中的類型,但相比一般粗糙的分類方式,我們采用了更精細、更深入的分類方法,當然對分類算法就需要進行深入的定制、優化研究。
關鍵問題二:根據前面對客戶分類的設想,在分類中出現用關系表來描述的客戶種類屬性的情況下,客戶屬性要體現“家庭單位和成員關系的客戶分類屬性”,本身可能是一個多維表,那么當下普遍采用的關聯關系的二維計算方法都是用來分析兩個一
全日制工學(工程)碩士學位論文開題報告
維數據屬性之間的關系,比如當前主流的Apriori算法。當前通用的算法如果不進行改進和局部的特殊設計,顯然不能滿足對本課題對應的保險客戶數據屬性表與產品表之間進行關聯分析的運算要求。這就要求我們對關聯算法的具體定制和完善,進行研究和創新。3.3技術、實驗條件
如果采用傳統的數據庫進行海量數據的存儲、并在其基礎上進行查詢分析操作時,會出現檢索速度慢以及不易擴展的問題,提出基于GP的分布式存儲模型(如圖所示)。
Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部數據源并行裝載或導出Master 節點Network Interconnect
圖1.1 GP的系統結構
采用成熟的商用并行數據庫平臺Greenplum作為本項目的主要數據庫和分析挖掘運算環境。該系統是基于postgreSQL發展的商業系統,特點是采用一組分布式多節點服務器組成并行運算結構,特別適合進行頻繁的高密度表關聯計算。
系統平臺的基本配置是一個核心管理服務器管理一組運算節點單元服務器,運算節點單元服務器可以根據數據量和運算要求的增長擴容。目前實驗室提供的環境可以存儲大約2億條數據,由于運算過程中需要產生大量的中間結果,因此推測可以對大約100萬條保險客戶和業務數據進行分析。3.4 預計目標
(1)適用于本地壽險行業的精準營銷分析方法,能夠用一種以上方法對客戶進行精確分類,并根據分類屬性確定保險產品的關聯選擇度,以指導保險行業提升客戶價值; 基于保險數據的挖掘處理方法以及增量挖掘問題的處理方法
(2)在核心期刊上發表1-2篇論文
全日制工學(工程)碩士學位論文開題報告
4研究方案及進度安排,預期達到的目標
2014年 9月 1日——2014年10月30日:調研、準備開題
2014年11月1日——2014年11月30日:去保險企業搜集數據,分析其數據特點,實驗方案再論證
2014年12月1日——2015年1月15日:建立模型與建立實驗環境
2015年2月10日——2015年5月30日:編碼、收集與分析實驗數據,完成一篇論文 2015年 6月1日——2015年 9月10日:進一步的對精準營銷系統進行優化 2015年 9月11日——2015年11月30日:碩士論文編寫 2015年12月1日——2015年 12月31日:碩士論文答辯
第三篇:關于數據挖掘在出口退稅中的應用
關于數據挖掘在出口退稅中的應用引言
出口貨物退(免)稅,簡稱 出口退稅,其基本含義是一個國家或地區對已報送離境的出口貨物,由稅務機關將其在出口前的生產和流通的各環節已經繳納的國內產品稅、增值稅、營業稅和特別消費稅等間接稅稅款退還給出口企業的一項稅收制度。出口退稅 主要是通過退還出口貨物的國內已納稅款來平衡國內產品的稅收負擔,使本國產品以不含稅成本進入國際市場,與國外產品在同等條件下進行競爭,從而增強競爭能力,擴大出口創匯[1]。
我國從1985年開始,全面地實行了 出口退稅 政策,并從1995年開始全面實行電子化管理,它是全國稅務系統第一個全面推廣應用的稅收管理軟件,是金關工程和金稅工程的一個子系統,在強化出口退稅管理,提高出口退稅工作效率,防范和打擊騙稅上發揮了巨大的作用[2]。但是,目前的出口退稅電子化管理只完成了出口退稅業務的電子化操作,還未在決策的電子化方面取得較大進展。經過十多年的發展,積累了大量涉稅信息,如何將這些“歷史的、靜態的”數據變成動態的、具有分析決策性質的信息已成為當前急需研究的課題[3],數據挖掘技術的出現使這種應用成為現實。出口退稅數據挖掘的目的和基本方法
現行的出口退稅電子化管理主要是通過出口企業把申報退稅的信息通過出口退稅申報系統錄入計算機并生成申報數據,然后再經過出口退稅審核系統把企業申報的出口退稅憑證的電子信息與稅務機關接收到的其他部門(征稅機關、海關 和外管)傳來的憑證信息進行比對,以達到審核出口退稅憑證的合法性和真實性的目的,進而根據比對審核通過的數據進行退稅。可以看出,目前的出口退稅電子化管理只側重了出口退稅的 單證 信息的計算機審核,而對于挖掘審核通過的 單證 信息和各部門傳遞來的電子信息的價值方面存在著很大的不足。隨著金稅二期網絡建設的推動,各省現已基本實現了出口退稅數據的省級大集中[4],這些數據都是各出口退稅部門在日常的業務審核中積累下來的數據,十分寶貴,如何充分發揮其應有的作用,已成為人們研究的熱點。1
數據挖掘的目的就是分析出口企業的出口退稅數據,挖掘這些數據與經濟的內在聯系,全面掌握本地區出口退稅的產品結構、出口的貿易方式、出口產品的地區差異等,對于調整一個地區的產業結構、經濟發展方向以及制定經濟發展戰略有著重要的參考價值;對于稅務機關掌握出口企業的實際生產出口情況,培養稅源,打擊偷稅漏稅和防范出口騙稅等方面有著重要的意義。
對于出口退稅部門在日常的業務審核中積累下來的數據進行挖掘,主要是指在了解和掌握具體納稅人生產經營情況和財務數據的基礎上,對納稅人的稅收經濟關系和稅收繳納狀況進行客觀評價和說明的分析,主要是通過對歷史數據進行縱橫比較分析和邏輯關系稽核來進行挖掘,以指導稅收管理工作。
1)橫向比較分析
橫向比較分析是指同一指標在不同個體、單位、地區之間的比較分析。橫向比較分析最典型的分析例子就是同業稅負分析。受市場均衡作用的影響,同一產品在生產技術工藝、原材料能源消耗方面有相近之處,適用稅收政策有統一的要求,因此反映生產成本費用方面的指標有相同的規律特征。總結這種規律特征,以此檢驗個體數據指標的表現,找出差異較大的個體予以預警。
2)縱向比較分析
縱向比較分析或歷史數據分析是指同一個體的同一指標在不同歷史時期的數據比較分析。常用的分析方法有趨勢分析和變動率分析。分析的理論依據是大多情況下企業的生產經營是處于一種相對平穩的狀態,不會出現突然的波動或大起大落現象。因此,如果企業生產能力沒有作大的調整,一般情況下企業各個時期的數據指標彼此接近,不會出現大的差異。如果出現較大差異,應引起主管部門的注意,及時進行相關的納稅評估。
3)數據邏輯關系稽核
受會計核算原理的約束和稅收制度規定的制約,反映納稅人生產經營情況和財務狀況的眾多數據指標之間存在非常嚴謹的、相互依存的邏輯關系。這種邏輯關系決定了企業的納稅申報數據必須滿足企業財務數據相關性的特定要求,檢查這些數據邏輯關系是否吻合,可以鑒別企業申報數據的真實性和合理性,從而發現稅收問題,堵塞征管漏洞。出口退稅數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能:
1)趨勢預測
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。出口退稅數據挖掘的預測趨勢是對納稅人特定稅收指標、經濟指標或稅收經濟關系指標一段時期走勢和趨向的分析和推斷,了解和掌握稅收經濟的發展趨勢,有利于判斷未來出口退稅形勢的好壞,使出口退稅做到心中有數。
趨勢預測的兩個基本要求是說明特定指標的發展方向和變化幅度,基礎分析技術是時間序列分析技術,常用說明指標有變動率和平均變化速度等。
2)關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
在出口退稅評估工作中,可以利用企業財務報表、納稅申報表和出口退稅匯總表等各項數據指標之間的相互邏輯關系進行核算檢查,對于不滿足應有邏輯計算關系的內容,即認為破壞了會計核算或稅款計征關系,均應視為異常做進一步的深入分析。由于企業財務指標和出口退稅申報數據有上百條之多,所以與此相關的邏輯計算關系也會在此基礎上更為豐富和復雜,只有通過關聯分析,才有可能在出口退稅申報環節實現實時的出口退稅評估工作。
3)聚類分析
聚類分析是數理統計的一個分支,是運用事物本身所具有的某種數據特征,遵循“物以類聚”規律進行數據處理,為事物的分類管理提供數據支持的一種分析方法。借用這種方法開展稅收分析,可將具有某種稅收共同特征的事物聚集在一起,使我們更清楚地認識稅收征管工作的分類特征。
聚類分析的基本原理是根據數據指標差異的絕對距離進行分類,結合矩陣分析技術,可以進行多指標的綜合特征分析,為復雜事物的分類提供了一種可行的分析方法。聚類分析的關鍵是找到一組關系密切的相關指標,如退稅增長、稅源增長、退稅變化彈性和出口影響等,均可以利用這一分析技術進行綜合分析和技術處理。
4)差異分析
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些差異很有意義。差異包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。
差異分析的基本方法是測算不同樣本同一指標的差異程度。差異分析的關鍵是建立評價差異的標準,有了標準才能說明差異的影響程度。表示差異程度可以用絕對值,也可以建立參照系用相對值。應用差異分析開展微觀稅收分析的典型分析案例就是同業稅負分析模型。應用同業稅負分析模型可以測算出各項相關指標的客觀水平和樣本離散狀況,以此為標準比對個別檢驗樣本的具體數值,超出差異允許界限的即為預警對象。
5)波動分析
波動分析是描述稅收事物運行變化平穩性的分析。稅收事物的運行受經濟變化影響、稅收制度規定的約束和現有征管環境制約有其自身客觀的規律。在經濟
運行相對平穩、稅制不變的條件下,稅收事物運行平穩與否,直接反映稅收征管情況的影響作用。因此,開展波動分析,一定程度上可以了解和說明退稅管理的表現,反映退稅管理是否能按稅源的發展變化規律同步開展,監督退稅管理的執行情況。出口退稅數據挖掘的實現
出口退稅數據挖掘應用系統由三部分組成:第一部分是由用戶數據源到中央數據庫的ETL過程;第二部分是根據出口退稅業務模型建立業務智能分析模型;第三部分是面向稅收管理人員進行數據的發布和多維分析工作。基本結構如圖1所示。
數據的ETL(Extract-Transform-Load,數據抽取、轉換、裝載)過程采用微軟的SSIS(SQL Server Integration Services)來完成數據預處理階段對于原始數據的轉換、清洗加載過程;中央數據庫采用微軟的SQL Server 2005,SQL Server 2005除了提供一個安全、可靠和高效的數據管理平臺之外,它還是一個企業級數據整合平臺,通過SSIS提供了構建企業級ETL應用程序所需的功能和性能,是一個集成的商業智能平臺,通過Analysis Services提供了統一和集成的商業數據視圖,可被用做所有傳統報表、OLAP分析、關鍵績效指標(KPI)記分卡和數據挖掘的基礎。
SQL Server 2005分析服務提供了數據挖掘服務,支持集成其它個人或者企業的DM算法,并且將DM算法集成的復雜度不斷降低,它主要是基于OLE DB for DM規范,使用靈活。開發人員能夠利用數據挖掘功能開發應用程序,其數據挖掘語言非常類似于SQL,數據挖掘供應者是一個開放系統,因為它是OLE DB的一個部件,數據挖掘服務能夠通過DSO(Decision Support Object)、或ADO可包含在任何用戶應用程序中。將DM算法無縫集成到SQL Server的分析服務中,利用集成的DM算法來構建數據挖掘解決方案是一種理想的方式。
在SQL Server 2005數據挖掘平臺中,創建關系型挖掘模型的語法如下:
Create mining model()using
它類似于建立一個關系表,其中包括輸入、預測屬性,每一個模型與一個數據挖掘算法相關聯。
多維數據分析工具和報表工具使用統一空間模型UDM(Unified Dimensional Model),利用UDM中對業務實體的友好描述、等級導航、多視角、自動平滑 翻譯 為本機語言等功能,可以實現出口退稅數據挖掘過程中所得到的結果集的友好展示。結束語
隨著數據倉庫技術的發展,數據挖掘會越來越發揮其獨到的分析優勢,特別是將挖掘出的新知識通過用基于OLAP的決策支持系統加以驗證、結合,可以更好地為決策者服務。出口退稅管理的電子化系統已經積累了大量的業務數據,可以為數據挖掘提供大量數據,數據倉庫和數據挖掘技術在收稅管理具有廣闊的應用前景。
第四篇:數據挖掘技術在客戶關系管理中如何應用畢業論文.
數據挖掘技術在客戶關系管理中如何應用
根據波特的影響企業的利益相關者理論,企業有五個利益相關者,分別是客戶、競爭對手、供應商、分銷商和政府等其他利益相關者。其中,最重要的利益相關者就是客戶。現代企業的競爭優勢不僅體現在產品上,還體現在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據優勢和主動。而對市場份額的爭奪實質上是對客戶的爭奪,因此,企業必須完成從“產品”導向向“客戶”導向的轉變,對企業與客戶發生的各種關系進行管理。進行有效的客戶關系管理,就要通過有效的途徑,從儲存大量客戶信息的數據倉庫中經過深層分析,獲得有利于商業運作,提高企業市場競爭力的有效信息。而實現這些有效性的關鍵技術支持就是數據挖掘,即從海量數據中挖掘出更有價值的潛在信息。正是有了數據挖掘技術的支持,才使得客戶關系管理的理念和目標得以實現,滿足現代電子商務時代的需求和挑戰。
一、客戶關系管理(CRM CRM是一種旨在改善企業與客戶之間關系的新型管理方法。它是企業通過富有意義的交流和溝通,理解并影響客戶行為,最終實現提高客戶獲取、客戶保留、客戶忠誠和客戶創利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業銷售收入,改善企業的服務,提高客戶滿意度,同時能提高員工的生產能力。
二、數據挖掘(DM 數據挖掘(Data Mining,簡稱DM,簡單的講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不
完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。
常用的數據挖掘方法有:(1關聯分析。即從給定的數據集中發現頻繁出現的項集模式知識。例如,某商場通過關聯分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發現數據庫中不同商品的聯系,進而反映客戶的購
買習慣。(2序列模式分析。它與關聯分析相似,其目的也是為了控制挖掘出的數據間的聯系。但序列模式分析的側重點在于分析數據間的前后(因果關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下隨著購買B商品,來發現客戶潛在的購買模式。(3分類分析。是找出一組能夠描述數據集合典型特征的模型,以便能夠分類識別未知數據的歸屬或類別。例如,銀行可以根據客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4聚類分析。是從給定的數據集中搜索數據對象之間所存在的有價值聯系。在商業上,聚類可以通過顧客數據將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5孤立點分析。孤立點是數據庫中與數據的一般模式不一致的數據對象,它可能是收集數據的設備出現故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發現信用卡詐騙,電信部門可以利用孤立點分析發現電話盜用等。
三、數據挖掘在客戶關系管理中的應用 1.進行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數據挖掘可以幫助企業進行客戶分類, 針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現有客戶的價值。細致而可行的客戶分類對企業的經營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數據信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數據庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經過數據挖掘的聚類分析,可以發現他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業務服務成本,取得更高的收益。
2.進行客戶識別和保留
(1在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶
這時可以采用DM中的分類方法。首先是通過對數據庫中各數據進行分析,從而建立一個描述已知數據集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發行公司利用顧客郵件地址數據庫,給潛在顧客發送用于促銷的新書宣傳冊。該數據庫內容有客戶情況的描述,包括年齡、收入、職業、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數據庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發送相應書籍的宣傳手冊。
(2在客戶保留中的應用
客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失 的過程。對企業來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學校的招生人數在逐漸減少,那么就要找出減少的原因,經過廣泛的搜集信息,發現原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業的教師。
(3對客戶忠誠度進行分析
客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數據挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數據進行分析,可以預測出顧客忠誠度的變化,據此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客
(4對客戶盈利能力分析和預測
對于一個企業而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業而言,其價值是不同的。研究表明,一個企業的80%的利潤是由只占客戶總數的20%的客戶創造的,這部分客戶就是有價值的優質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創利能力來劃分客戶,進而改進客戶關系管理。數據挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業制定合適的市場策略。商業銀行一般會利用數據挖掘技術對客戶的資料進行分析,找出對提高企業盈利能力最重要的客戶,進而進行針對性的服務和營銷。
(5交叉銷售和增量銷售
交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業和客戶間的關系。增量銷售是促使客戶將現有產品和服務升級的銷售活動,目的在于增強企業和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數據挖掘可以采用關聯性模型或預測性模型來預測什么時間會發生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。
四、客戶關系管理應用數據挖掘的步驟 1.需求分析
只有確定需求,才有分析和預測的目標,然后才能提取數據、選擇方法,因此,需求分析是數據挖掘的基礎條件。數據挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯分析、分類、聚類及預測,還是其他應用。應對現有資源如已有的歷史數據進行評估,確定
是否能夠通過數據挖掘技術來解決用戶的需求,然后將進一步確定數據挖掘的目標和制定數據挖掘的計劃。2.建立數據庫
這是數據挖掘中非常重要也非常復雜的一步。首先,要進行數據收集和集成,其次,要對數據進行描述和整合。數據主要有四個方面的來源:客戶信息、客戶行為、生產系統和其他相關數據。這些數據通過抽取、轉換和裝載,形成數據倉
庫,并通過 OLAP 和報表,將客戶的整體行為結果分析等數據傳遞給數據庫用戶。3.選擇合適的數據挖掘工具 如果從上一步的分析中發現,所要解決的問題能用數據挖掘比較好地完成,那么需要做的第三步就是選擇合適的數據挖掘技術與方法。將所要解決的問題轉 化成一系列數據挖掘的任務。數據挖掘主要有五種任務:分類,估值預測,關聯 規則,聚集,描述。前三種屬于直接的數據挖掘。在直接數據挖掘中,目標是應 用可得到的數據建立模型,用其它可得到的數據來描述感興趣的變量。后兩種屬 于間接數據挖掘。在間接數據挖掘中,沒有單一的目標變量,目標是在所有變量 中發現某些聯系。4.建立模型 建立模型是選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型 的過程。一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較 好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類。回歸是通 過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未 來的值。這一步是數據挖掘的核心環節。建立模型是一個反復進行的過程,它需 要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最 合理、最適用的模型。5.模型評估 為了驗證模型的有效性、可信性和可用性,從而選擇最優的模型,需要對模 型進行評估。我們可以將數據中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數據以用 戶能理解的方式出現,直至找到最優或較優的模型。6.部署和應用 將數據挖掘的知識歸檔和報告給需要的群體,根據數據挖掘發現的知識采取 必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用 系統。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當 的調整,以使模型適應不斷變化的環境。參考文獻: [1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經濟 出版社,2002 [2]馬剛:客戶關系管理[M]大連:東北財經大學出版社,2008
第五篇:數據挖掘技術在圖書采購中的應用初探.專題
數據挖掘技術在圖書采購中的應用初探 湖南理工學院圖書館 張 暉
[摘 要]數據挖掘是一種新的信息技術,在許多行業有著廣泛的應用。高校圖書館同樣可以成為其應用的一個領域。在圖書采購中,可以應用數據挖掘技術來提高采購的效率和針對性。
[關鍵詞]數據挖掘 高校圖書館 圖書采購
計算機網絡與數據庫技術的發展和廣泛應用,信息日益成為企業的一種重要資源,人們利用信息技術生產和搜集數據的能力大幅度提高,在這些數據背后隱藏著極為重要的商業知識,但是這些商業知識是隱含的、事先未知的。面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘技術應運而生,越來越顯示出其強大的生命力。
1數據挖掘技術概述
數據挖掘(D ata M in ing是一種新的信息處理技術,其主要特點是對單位、企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,以從中提取輔助管理決策的關鍵性數據。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。常用的數據挖掘技術主要有以下幾種: 1.1人工神經網絡
仿照生理神經網絡結構的非線性預測模型,主要由“神經元”的互聯,或按層組織的節點構成,通常由輸入層、中間層和輸出層三個層次組成,在每個神經元求得輸入值后,再匯總計算輸入值;由過濾機制比較輸入值,確定網絡的輸出值。
1.2決策樹
決策樹是一個類似流程圖的樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分枝代表1個測試輸出,而每個樹葉點代表類或類分布。樹的最頂層節點是根節點。目前,在數據挖掘中使用的決策樹方法有多種,典型的在國際上影響較大的決策樹方法是Q n in lan研制的I D3算法。
1.3遺傳算法
遺傳算法是模擬生物進化過程的計算模型,是自然遺傳學與計算機科學相互結合滲透的計算方法。遺傳分析應用搜索技術,先找出兩個合適的父樣本,通過“交叉”“變異”等帶有生物遺傳特點的操作產生下一代樣本,對子樣本反復“交叉”“變異”操作直到子樣本收斂為此,再找另外兩個合適的父樣本重復上述過程,就能得到下一代的樣本集。由此得到當前樣本集較可能的發展方向。
1.4近鄰算法
用該方法進行預測的基本概念就是相互之間“接近”的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰居對象。
1.5規則推導
根據統計意義上對數據中的規則“如果條件怎么樣、怎么樣,那么結果或情況就怎么樣”,對給定的一組項目和一個記錄集合,通過分析記錄集合,推導出項目間的相關性。
1.6聚類方法
聚類分析方法按一定的距離或相似性測度將數據分成系列相互區分的組,它是不需要預定義知識而直接發現一些有意義的結構與模式。可采用拓撲結構分析、空間緩沖區及距離分析、覆蓋分析等方法,旨在發現目標在空間上的相連、相鄰和共生等關聯關系。
1.7可視化技術
可視化技術在數據挖掘過程中的數據準備階段是非常重要的,它能夠幫助人們進行快速直觀地分析數據。利用可視化方法,很容易找到數據之間可能存在的模式、關系和異常情況等。
2高校圖書館可以成為數據挖掘技術的應用領域
目前,在很多領域,數據挖掘都是一個很時髦的詞,尤其是在銀行、電信、保險、交通、零售(如超級市場等商業領域。同樣,數據挖掘技術在高校圖書館中的應用,將為圖書館在數字資源的組織和管理、服務質量的提升和服務方式的拓展等方面提供技術支持,并顯示出強大的生命力。高校圖書館可以成為數據挖掘技術的應用領域,理由如下: 2.1高校圖書館管理的需要
在信息化社會中,圖書館的生存與發展和先進技術的運用是密不可分的。目前,高校圖書館利用的信息管理系統可以高效地實現傳統圖書館信息管理中的數據的錄入、查詢、統計、流通借閱等功能,相對于從前的手工加工管理時代,可以說是一次飛躍,但圖書情報部門的工作仍然主要是對信息的載體進行管理,以提供信息的外在特征服務為主,無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。高校圖書館作為學術性、科研性、服務性機構,在高等教育中承擔著重要角色,特別是在向數字化圖書館轉型過程中,迫切需要應用分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、W eb網頁挖掘等技術手段對信息進行深加工,以推動圖書館業務與管理的全面進步。運用數據挖掘技術,實現海量數據的存儲和利用,支持圖書館各種層次的科學決策,促進圖書館管理的發展。
2.2圖書館物質基礎的形成
在現代科學技術推動下,高校圖書館正朝著自動化、數字化和信息化的方向發展。一方面,我國的圖書館系統經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量數據,為數據挖掘應用奠定了一定的物質基礎。另一方面,圖書
館的數字化發展是我國信息化建設的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經濟上的支持,為行業
— 8 5 1 —
性數據挖掘的實施提供了良好的政策環境和經濟保障。2.3實現技術的成熟
數據挖掘在經過多年的發展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。另外,數據挖掘技術在發達國家的電信、制造、零售、金融等領域已有較深程度的應用,并取得了巨大的回報,這些成功應用的例子為我們提供了可資借鑒的寶貴經驗。
3應用數據挖掘技術開展圖書采購工作
目前,國際上已經將圖書館的信息服務納入了電子商務之中,數據挖掘技術不僅在商業界倍受青睞,它在現代化圖書館中的應用前景也十分廣闊,而圖書采購則是數據挖掘技術在高校圖書館應用中的一個典型領域。基于數據挖掘技術的圖書采購策略的基本思路是:利用計算機圖書管理數據庫積累的圖書借閱流通資料,利用數據挖掘技術得到讀者借閱頻率較高的圖書類型的關鍵詞、出版社、編著者信息,考慮缺書比例較大的圖書,依此決定采購策略。
3.1讀者信息資源的收集
采訪部門職能發揮的好壞關系到圖書館資金及資源利用率的高低,如何采購高質量的書刊是圖書館工作的重中之重。因此,準確地定位讀者對象的需求就成為提高資源利用率的一個主要因素。根據流通數據庫的集成數據進行數據挖掘,能夠得到讀者對圖書資源的使用頻率表,對讀者進行分類的同時對適合不同類別的讀者的圖書資源進行聚類,可以快速而精確地得到訂書單。通過收集整理圖書館網站上的在線調查、留言簿等數據,或是設計讀者調查表,包括讀者的基本情況、閱讀興趣、查閱資料的途徑及對國內外文獻資源的需求情況等,將這些元數據轉化為標準的結構化數據庫,利用數據挖掘方法分析讀者行為傾向,發現用戶興趣模式,就能動態的調整采購策略,有針對性地應對需求。
3.2確定采購的重點
圖書館每年的文獻購置費是有限的,各門學科之間如何分配、各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是一件令人頭疼的事。隨著出版物的數量日益增多,載體日益豐富,高校圖書館信息結構、讀者需求與資金利用的平衡問題越來越不易把握,也令采購工作的決策變得更加復雜。數據挖掘技術可以對流通數據庫和采訪數據庫中的歷史記錄數據進行關聯性分析和序列分析,可以輕松地統計出文獻的拒借集合和頻繁借閱集合,科學分析各類文獻的利用率,為采購文獻提供科學合理的各種分析報告及預測信息,從而指導采訪人員對文獻種類進行科學地篩選,合理地確定各種文獻所需的復本量,及時補充短缺的文獻,剔除過時的文獻,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學性和合理性。
3.3訂購渠道的管理
圖書訂購是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現代化圖書館資源建設的開始。傳統圖書館的訂購信息大多來源于出版社和書商,信息量有限,這樣會導致重復訂購和館藏資源不足的矛盾現象出現。隨著信息技術的發展,圖書訂購渠道已呈現多樣化,包括專家訂書、光盤檢索、電子文獻、借閱數據庫查詢等。通過數據挖掘技術可以為圖書采購提供科學的、合理的分析和預測,從而實
現訂購渠道的管理,選擇合適的訂購渠道,為圖書館節省可貴的經費,買到最適用的圖書。
3.4確定圖書的學科比例
圖書館要全面兼顧不同類型的讀者,考慮各個學科內容的完整搭配組合。即使最近一段時間武俠小說非常流行,也不能全部只購買武俠小說。大學的圖書館必須結合學校的專業設置,為各個專業的教學科研配備參考書,不能顧此失彼。應當結合館藏圖書的學科專業分布、發展趨勢以及現有藏書量,控制不同學科的圖書占總采購金額的比例。對于館藏數量少,而根據發展趨勢急需加強的學科需要擴大比例。通過流通、采訪系統數據進行如關聯性分析、序列分析等挖掘方法得到的結果,可以分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻信息,為采購文獻提供科學合理的各種分析報告及預測信息,指導采訪人員對購書的種類、所需復本數量等進行科學的篩選,優化館藏結構,合理確定各學科的圖書比例。
3.5采購經費的管理
傳統圖書館信息采集多由專門采訪人員獨自確定或與少數專家商討決定,不可避免的帶有極大的主觀性以及個人喜好;而且圖書館每年的文獻購置費是有限的,各門學科之間如何分配,各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是一件令人頭疼的事。而運用數據挖掘技術可以通過對圖書館的借閱流通記錄、檢索請求進行分析、挖掘,有針對性的補充和豐富信息資源,并可以籍此分析出文獻的利用率,從而實現采購經費的合理管理,區分輕重緩急,“好鋼用在刀刃上”。
參考文獻
[1]王向輝等.數據挖掘技術及其在決策支持系統中的應用[J]計算技術與自動化,2004(4 [2]陳瑞雪.數據倉儲與數據挖掘技術在現代化圖書館中的應用[J].圖書館學研究,2004(11
[3]張存祿等.數據挖掘在圖書采購中的應用[J].情報科學,2004(5 [4]劉曉東.數據挖掘在圖書館工作中的應用[J].情報雜志,2005(8 [5]鮑翠梅等.數據挖掘技術及其在圖書館中的應用[J].情報雜志,2004(9 — 9 5 1 —