第一篇:案例7-2 天津聯通利用SAS數據挖掘技術實現精細營銷
案例7-2 天津聯通利用SAS數據挖掘技術實現精細營銷
啤酒和尿布,風馬牛不相及,但細心的超市經營者發現,把這兩件商品擺放在一起,比分置兩處,更能提升兩者的銷售額——因為周末購物的父親們會在買尿布的同時,習慣性地拿瓶啤酒?!诰驍祿?,分析用戶購買習慣,發現用戶潛在的需求以做決策的依據,這就是BI的力量。
近四分之一個世紀以來,SAS始終致力于將原始數據轉變成知識和洞察力,提供能夠將數據倉庫技術、分析方法論和傳統的商業智能整合在一起的端到端的解決方案,以頂尖的技術和服務幫助客戶全面提升管理水平和決策能力,其專業和經驗獲得了全球財富500強中94%的客戶認可。同時,財富500強的經營智慧和他們對本行業的深刻洞察也幫助SAS獲得了對客戶所從事行業的寶貴經驗。
電信業競爭日趨白熱化,運營商們推出新業務的節奏越來越快,過于激烈的競爭使得決策不免倉促,缺乏扎實的市場依據,最后淪為“價格戰”。信息產業部前部長、全國人大教科文衛委員會副主任委員吳基傳最近對國內電信市場“價格戰”的批評也正說明了問題的嚴重性。新的競爭環境下、中國聯通香港上市后國際投資人對公司管理水平“國際化”和公司贏利能力水平的提升都提出了更高的要求,天津聯通感受到需求的迫切,引進先進的軟件和服務系統,成為提升其管理科學化的重要步驟。
在全球市場,SAS服務于眾多大型電信運營商,SAS的產品功能模塊建立在對這些電信運營商業務分析的基礎之上,更具備行業通用性。同時,SAS也與上海、北京、浙江、河北等地的若干家電信運營商存在合作關系,對國內運營商個性化的業務需求非常了解。兼具國際化的背景和本地化的經驗,是天津聯通選擇SAS的重要原因。同時,天津聯通認為,商業智能軟件不僅投入較大,而且涉及企業的關鍵業務數據,只有具備相當資質的大公司才值得信賴,而SAS的資質和實力無疑獲得了天津聯通的信任。
數據挖掘,幫助天津聯通實現營銷精細化
顯然,在今天中國的電信市場上,粗放式的營銷已經無法確保市場回報,營銷精細化、科學化是運營商生存的唯一選擇,而精細化、科學化的營銷決策需要情報支持系統,電信運營商每天產生的業務數據不計其數,這些數據之間是否存在諸如“尿布與啤酒”這樣的關系?這種關系又蘊涵著哪些潛藏的商機?僅憑直覺和觀察,能經營小超市,但經營一家大型的電信企業,就需要專業的商業智能軟件做決策支持,這正是SAS所擅長的。
天津聯通根據其業務需要與企業的實際情況,選擇了SAS電信業智能解決方案中的三個組成部分:客戶挽留解決方案、電信業客戶細分解決方案、電信業交叉銷售和提升銷售解決方案。這三個項目的實施,分別幫助天津聯通解決三個決策的問題:
第一,是預測哪些客戶最具有流失的傾向以及影響客戶流失的關鍵因素,通過預制的分析模型提供“流失記分”幫助識別風險客戶,在客戶流失之前采取針對性措施來挽留他們。
第二,根據客戶可能的行為和潛在的盈利性對客戶進行分類,制定更準確的產品組合、更準確的產品介紹和產品捆綁服務。
第三,從現有客戶中識別出有可能接受交叉銷售和提升銷售的客戶人選,評估客戶過去的購買模式,預測客戶下一步可能購買什么。
通過運行該系統,并對業務數據進行分析,天津聯通制訂了更精細的營銷策略,留住了利潤貢獻最高的客戶,并開發了更有針對性的新業務,提高了每用戶平均收入(ARPU-Average Revenue Per User),增強了贏利能力。
天津聯通的用戶對變化也有直接感受,一位入網4年多,每月消費額在500元以上的老客戶評價說,“天津聯通推出的客戶關懷活動讓我們感受到了作為老客戶的‘價值’,如果有人向我咨詢,我會向他們推薦使用聯通的服務?!?/p>
專業服務,授之以漁
盡管是一家國際型企業,但是SAS在與天津聯通溝通過程中,服務團隊還是讓天津聯通感覺到了溝通的融洽。從2000年到現在SAS一直致力于中國團隊的建設,目前有兩支團隊已是相當成熟,一個是技術支持和本地化開發隊伍,另外一個就是致力于客戶關系管理、客戶商務智能分析的銷售隊伍。
天津聯通計費營帳中心數據挖掘項目經理田龍認為,SAS的技術人員非常專業,具備豐富的電信行業經驗?!八麄兡軓膹碗s的數據中找到有用的信息,用圖表的方式提供給我們,這些信息很容易看懂,并可以依此形成決策。他們對項目的把控能力也是一流的,系統交割清楚有序,并對我們的業務人員進行了系統的培訓。”在SAS的培訓下,天津聯通的業務分析人員已經能夠熟練掌握系統的運行,獨立操作,從數據中找到他們真正需要的東西,而這種“授之以漁”,融咨詢、服務、培訓為一體的模式,比單純銷售產品更加符合客戶的長遠利益。
同時,SAS有著電信行業特有的數據結構、電信領域的出色專家與業已證實的成功分析模型,這些都構成了天津聯通智能化管理的基礎。先進的數據挖掘方法論SEMMA幫助發掘真正的商業智能,為天津聯通的市場決策做支持,而系統本身具有的智能應用、高可用性、高可靠性、高擴展性等特性也充分滿足了客戶在相當長一段時間內的需求。
提高決策成功率,降低總體擁有成本
越大的企業,決策的成本越高,一次錯誤的決策就可導致上千萬乃至上億的損失,減低決策風險,對于大企業有特別的重要的意義。而SAS的BI系統,不僅幫助客戶提升了贏利能力,也通過變主觀決策為數據決策,減低了決策失誤的機率。SASBI系統不僅能滿足客戶當前的需求,也能滿足當用戶數量增加和業務規模擴大時的需求,具備高可擴展性,真正做到了總體擁有成本最低。
目前,這一智能解決方案的效果已經被證實十分明顯,在新業務開發方面,天津聯通原來每1000人的電話銷售成功率是40人,而現在這一數字提高到了200人,也就是說成功率由原來的4%提高到了20%。
應用效果評價
目前電信業的競爭越來越激烈,迫使電信業必須從過去粗放式的營銷模式轉向精細化、科學化管理。決策層要想盡快掌握和調整市場方向,就必須從每天產生的不計其數的業務數據中尋找出準確、有效的數據。而SAS在數據挖掘領域技術不僅技術突出,而且其咨詢和實施顧問,由于長期在電信行業摸爬滾打,有著豐富的行業經驗。另外,其電信行業特有的數據結構,以及系統本身具有的高可用性和高可擴展性也滿足了客戶的需求。
值得一提的是,在項目實施期間SAS為用戶提供的業務流程和數據規范建議和意見,以及“授之以漁”的實施方法也推動了用戶對自身業務系統的優化和深入認識。天津聯通計費營帳中心數據挖掘項目經理田龍也表示,“SAS 幫助我們發現隱藏在數據之后的問題與機會,我們的營銷變得更有洞察力,準確而迅速?!?/p>
第二篇:企業戰略-利用數據挖掘技術提高飯店競爭力
★★★文檔資源★★★
內容摘要:在日益劇烈的業內競爭壓力下,飯店是否能制定并執行切實可行的市場戰略,關鍵取決于該飯店管理者對其顧客的偏好、以及影響顧客行為的因素了解得是否正確和全面。數據挖掘技術正可以為飯店管理者提供這樣一個全面、深刻了解顧客行為的窗口。有效的運用數據挖掘工具,并將獲得的信息轉化為切實可行的措施,能夠給我們的飯店帶來優勢明顯的競爭力。
關鍵詞:飯店業
數據挖掘
決策樹
數據挖掘概述
數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從商業角度,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
據統計,數據開掘技術能夠發現和跟蹤數據集合中潛在的模式,因此,有人認為,在數據庫中,處理隱藏的知識、不可意料的模式和新規那么的發現的所有方法中,數據挖掘是最有效的。如果沒有數據挖掘技術,許多數據就很可能停留在未使用的階段。正是數據挖掘為飯店管理者提供了全面、深入地分析和了解顧客及其行為特征的重要助臂;也正是由于其創造客戶價值的能力,數據挖掘技術已經被國外一些飯店作為一個重要的競爭工具使用。比方:Hilton
Corporation在它的Beverly
Hills總部使用了E.piphany
E.4軟件,Starwood
Corporation也引進了Unica
Corp的Affmium軟件。
數據挖掘的研究方法和步驟
飯店生存與否的關鍵,是它是否有能力為顧客提供令其滿意的效勞和設施,比方飯店的清潔狀況、登記入住和結賬是否方便快捷、飯店效勞員是否有禮貌、價格是否合理等等。
但是要把這些對顧客偏好的了解轉化為有效的競爭力,飯店就需要挖掘有效的客戶特征信息。而飯店是否能制定并執行切實可行的市場戰略正是取決于飯店對客戶偏好和行為特征的了解是否正確和全面。因此,我們首先需要利用數據挖掘技術開掘出詳細有效的客戶特征信息。
定義目標
開發任何數據挖掘模型,都應該遵守目標同樣的規那么:明確的目標,恰當的數據準備,適宜的工具和技術,嚴格的處理和全面的驗證。常常被忽略也最值得強調的是,數據挖掘模型之間最主要的區別是目標的區別。其處理步驟往往是相同的。所以,我們在具體實施中,不僅要從建模的角度強調定義目標的重要性,還需要從商業的角度強調清晰定義目標的重要性。
數據準備
數據準備是數據挖掘模型開發過程的第一個步驟,也是最重要的步驟之一。雖然數據挖掘的工具也很重要,但是數據是框架〔信息庫〕,模型的質量與底層的數據密切相關。數據準備階段包括這幾個局部的工作——數據收集、數據清理、數據集成、數據轉換和數據歸約。
首先我們必須收集支持模型的有關數據。只有對目標主體和市場有非常透徹的理解,才可能為目標模型選擇出最正確的數據。在有了建模所需的完整數據集以后,下一步需要對數據進行清理,即檢查數據,找出錯誤、異常值和缺失值。數據清理是數據準備過程中最花費時間、最乏味,但也是最重要的步驟,因為后面挖掘工作的質量依賴于數據的精確性和正確性。為了使后面的挖掘工作易于進行,我們還需要進行數據集成,即將來自不同數據源的數據整合成一致的數據存儲。在擁有明確的目標和干凈、準確的數據之后,還需要進行數據轉換〔將數據轉換為適于挖掘的形式〕和數據歸約,使數據能夠發揮最正確效果。
選擇數據挖掘工具和技術
數據挖掘工具有很多,比方:規那么歸納、聚類、決策樹、遺傳算法、神經網絡等。每個工具都有它的優點和缺點,不能簡單的說哪種工具好,哪種不好。我們需要針對具體的情況和飯店方案的目標來選擇最適合的工具。
這個步驟包括定義模型結構〔是樹、神經網絡、還是規那么歸納?〕、搜索〔選擇具體的算法〕和驗證〔什么時候算法能夠得到正確的模型并停止計算?〕。
處理、驗證和實現模型
模型開發的一個重要準那么是:用模型開發過程中未使用過的數據來驗證模型。這個準那么可以檢驗模型的健壯性。所以,在準備好數據、選擇好適宜的數據挖掘工具后,需要進行的是模型處理之前最后一個步驟——將數據文件分割成建模數據集和驗證數據集兩個局部。然后,我們就可以用準備好的數據和數據挖掘工具處理模型了。而建立的模型是否健壯,就需要在驗證數據集上檢驗模型。如果模型驗證的結果不佳,可能是由于數據有問題、變量匹配差或建模使用的數據挖掘技術不合理等因素造成的,就需要使用適宜的驗證技術使模型更加嚴格、有效。在成功地挖掘出有用的信息后,就可以利用這些信息來制定適宜的市場戰略。通過這種方式,我們可以把數據挖掘技術挖掘出來的信息轉化成為有效的企業競爭力。
數據挖掘技術在飯店業的應用
這里引用了一個基于韓國豪華飯店的實例研究,旨在說明數據挖掘技術在飯店業的有效性和實用性,并借此案例進一步說明在飯店業使用數據挖掘技術的具體實施過程。這個研究的目標是幫助飯店決策者建立飯店顧客的行為模式,并以此作為飯店制定可行市場戰略的重要根底。
為了最大化地獲取并反映飯店顧客的行為模式,研究者選擇了韓國漢城在經營價格、地理位置等方面都相似的11家飯店,并在光臨這11家飯店的顧客中精挑細選出281位顧客,對其進行了問卷調查。為了獲得顧客情況的數據資料,研究者在問卷調查中通過設定的14個問題,主要考察了與之相關聯的十多項數據。這十多項數據來自以下三個方面:顧客的人口統計學數據〔年齡、性別、國籍、職業〕;顧客的行為數據〔旅行的目的、過去光臨飯店的頻率、選擇的飯店、樓層類型、房間類型、支付方式……〕;顧客的心理或態度數據〔對飯店效勞員的禮貌、快速/平滑處理顧客投訴、預訂的便利性、前臺效勞等方面的滿意程度……〕。值得強調的是,研究者為模型選擇的數據是基于對飯店業本身以及顧客、市場情況等方面透徹理解之上的,比方研究者所考察的顧客對于飯店提供的某些效勞的滿意度數據,是從已經被證實與飯店效勞質量緊密相關的屬性中挑選出來的。同時應指出,由于顧客滿意度數據等是無法從飯店數據庫得到的,所以研究者使用了問卷調查這一方式對建模數據進行了完善。
在獲得了建模所需的數據之后,研究者首先對收集的數據進行了清理,即填寫缺失值,平滑噪聲數據,識別、刪除孤立點,并糾正數據的不一致性。但僅僅有準確的數據是不夠的,還需要對一些數據進行處理。在這個研究實例中,研究者主要是把對一些顧客屬性數據〔包括飯店名稱;顧客的性別、國籍、職業、支付方式、旅行目的、選擇的房間和樓層類型;顧客對飯店預訂房間的便利性、效勞員的禮貌情況、效勞質量、處理顧客投訴情況等方面的滿意程度〕轉化為了簡單的、便于處理的數字。比方:把研究中的11家飯店名稱用數字1-11表示;飯店把性別屬性轉化為0=男性,1=女性;把國籍屬性轉化為:1=美國,2=歐洲,3=日本,4=韓國,5=除了日韓的亞洲;把顧客對各項指標的滿意度屬性都轉化為:5=非常滿意,4=比擬滿意,3=一般,2=比擬不滿意,1=完全不滿意;把顧客支付方式轉化為1=旅行支票,2=現金,3=信用卡;把顧客旅游目的轉化為1=商務旅行,2=旅游。然后,研究者把所有的數據都安排到一個Excel文件中,并將其轉化為SPSS格式,使后面的工作便于展開。
針對這個研究的目標——預測顧客在飯店選擇、房間類型選擇、支付方式等問題上的顧客行為模式,我們需要挖掘顧客行為模式與其人口統計學資料〔年齡、性別、國籍、職業〕、對飯店各項效勞或設施的滿意度情況之間的相互關系。而挖掘出的信息的商業價值在于為飯店經理人提供決策依據。所以,挖掘出的信息必須是飯店經理人容易理解的。這樣,信息最終才能轉化為飯店的優勢競爭力。
正是由于上述各種原因,研究者在諸多數據挖掘技術中選擇了結構和生成規那么易于理解的決策樹。而在CART、C5.0、CHAID等多種建立決策樹的算法中,研究者選擇了C5.0,是由于其速度快、內存占用小、修剪能力和交互驗證的特征能夠使預測更精確。
為了能在具體實施中僅僅提煉出對飯店管理者設計有關戰略有用的信息,而不是產生大量的規那么集,研究者對訓練數據集設置了一個精確度為50%的閥值,而且只選擇了預測精確性超過80%的規那么。研究者最終使用SPSS的數據挖掘應用工具Clementine還是挖掘出了50多條有關規那么。這50多條規那么從顧客的年齡、國籍、職業、性別、旅行目的、選擇飯店、支付方式、光臨頻率、在飯店的停留時間等各個方面具體剖析了顧客的行為模式,揭示了導致或影響這些顧客行為的各種因素,其中一些能夠為飯店管理者提供決策上的支持。
挖掘出的這50多條規那么中,有一些規那么是比擬明顯的,是有經驗的飯店管理者在管理工作中已經發現或是可以發覺的規那么;而另一些規那么卻是潛在的、是飯店管理者不易發覺或無法發覺的。同時,挖掘出來的這50多條規那么并不一定都是有用的或是有意義的,在管理者具體把這些規那么用于管理實踐中時,不同的戰略目標往往需要不同的規那么作為根底。
比方,研究者挖掘出了如下有關顧客光臨情況的規那么:假設顧客為30多歲的男性或30歲至40多歲的女性,并已經光臨過某個飯店四次,那么這位顧客很有可能再光臨這家飯店或與之類似的飯店;而40多歲的男性顧客已經光臨過某家飯店四次,那么不太可能再次光臨這家飯店或與之類似的飯店;光臨過某家飯店多于五次的女性顧客很可能再光臨這家飯店或與之類似的飯店十次以上;如果顧客已經光臨過某家飯店兩次,而且他住在飯店的標準層,又是直接在飯店預訂房間的,同時他對于飯店房間的大小比擬滿意,那么這位顧客很可能再光臨這家飯店或與之類似的飯店五到九次。
上述有關顧客光臨情況說明:這家飯店的管理者在對有價值顧客進行定位時,可以首先排除已經光臨過本飯店四次的40多歲的男性顧客,并把已經光臨過本飯店五次以上的女性顧客定位為最有價值顧客,同時把已經光臨過本飯店四次的30多歲的男性和30至40多歲的女性定位為比擬有價值顧客。這樣,管理者就可以通過諸如僅針對有價值顧客進行常客獎勵方案,以保存核心顧客,培養其忠誠度;同時飯店還可以注意顧客預訂房間的方式和選擇的房間類型,并使飯店房間的布置更顯寬敞來提高顧客滿意度,著重對直接預訂標準層房間,且已經光臨過飯店兩次的顧客進行顧客有效的保存措施。
當然,上面所提到的定位有價值顧客和顧客保存只是數據挖掘運用到飯店管理中的兩個例子;在實際中,這些挖掘出來的規那么還可以運用于飯店市場拓展、市場細分、顧客需求分析、創立個性化效勞等很多方面。有效的運用數據挖掘工具,并將其轉化為切實可行的措施,能夠給我們的飯店帶來極具競爭力的優勢。特別是在數據挖掘技術在飯店業的應用還處于初始階段的今天,早期有效采用數據挖掘技術能使其在飯店業中提升地位,更具競爭力。
參考資料:
1.劉靜艷、顏亮,酒店??酮剟罘桨冈谖覈膽肹J],旅游科學,2002
2.吳東曉,基于顧客的飯店品牌價值影響因素的實證研究[J],南開管理評論,2003
第三篇:C02 利用Python實現大數據分析與數據挖掘技術培訓(5天)
Python實現大數據挖掘技術培訓
【課程目標】
Python已經成為數據分析和數據挖掘的首選語言,作為除了Java、C/C++/C#外最受歡迎的語言。
本課程基于Python工具來實現大數據的數據分析和數據挖掘項目?;跇I務問題,在數據挖掘標準過程指導下,采用Python分析工具,實現數據挖掘項目的每一步操作,從數據預處理、數據建模、數據可視化,到最終數據挖掘結束,幫助學員掌握Python用于數據挖掘,提升學員的數據化運營及數據挖掘的能力。
通過本課程的學習,達到如下目的:
1、全面掌握Python語言以及其編程思想。
2、掌握常用擴展庫的使用,特別是數據挖掘相關庫的使用。
3、學會使用Python完成數據挖掘項目整個過程。
4、掌握利用Python實現可視化呈現。
5、掌握數據挖掘常見算法在Python中的實現?!臼谡n時間】
5天時間
(全部模塊講完需要5天時間,可以根據時間需求拆分內容模塊)。【授課對象】
業務支持部、IT系統部、大數據系統開發部、大數據分析中心、網絡運維部等相關技術人員?!緦W員要求】
課程為實戰課程,要求:
1、每個學員自備一臺便攜機(必須)。
2、便攜機中事先安裝好Excel 2010版本及以上。
3、便攜機中事先安裝好Python 3.6版本及以上。
注:講師現場提供開源的安裝程序、擴展庫,以及現場分析的數據源。
【授課方式】
語言基礎 +挖掘模型 +案例演練+開發實踐+可視化呈現
采用互動式教學,圍繞業務問題,展開數據分析過程,全過程演練操作,讓學員在分析、分享、講授、總結、自我實踐過程中獲得能力提升。【課程大綱】
第一部分:Python語言基礎
目的:掌握基本的Python編程思想與編程語句,熟悉常用數據結構的操作
1、Python簡介
2、開發環境搭建 ? Python的安裝 ? 擴展庫的安裝
3、掌握Python的簡單數據類型 ?
字符串的使用及操作 ? 整數、浮點數
4、掌握基本語句:
? if、while、for、print等 ? 基本運算:
? 函數定義、參數傳遞、返回值
5、掌握復雜的數據類型:列表/元組
? 列表操作:訪問、添加、修改、刪除、排序 ? 列表切片、復制等 ? 列表相關的函數、方法 ? 元組的應用
6、復雜數據類型:字典 ? 創建、訪問、修改、刪除、遍歷 ? 字典函數和方法
7、復雜數據類型:集合
8、掌握面向對象編程思想 ? 創建類、繼承類 ? 模塊
9、函數定義、參數傳遞、返回值10、11、標準庫與擴展庫的導入 異常處理:try-except塊
演練:基本的Python編程語句
第二部分:Python語言與數據挖掘庫
目的:掌握數據集結構及基本處理方法,進一步鞏固Python語言
1、數據挖掘常用擴展庫介紹 ? Numpy數組處理支持 ? Scipy矩陣計算模塊
? Matplotlib數據可視化工具庫 ? Pandas數據分析和探索工具 ? StatsModels統計建模庫 ? Scikit-Learn機器學習庫 ? Keras深度學習(神經網絡)庫 ? Gensim文本挖掘庫
2、數據集讀取與操作:讀取、寫入 ? 讀寫文本文件 ? 讀寫CSV文件 ? 讀寫Excel文件 ? 從數據庫獲取數據集
3、數據集的核心數據結構(Pandas數據結構)? DataFrame對象及處理方法 ? Series對象及處理方法
演練:用Python實現數據的基本統計分析功能
第三部分:數據可視化處理
目的:掌握作圖擴展庫,實現數據可視化
1、常用的Python作圖庫 ? Matplotlib庫 ? Pygal庫
2、實現分類匯總
演練:按性別統計用戶人數
演練:按產品+日期統計各產品銷售金額
3、各種圖形的畫法 ? 直方圖 ? 餅圖 ? 折線圖 ? 散點圖
4、繪圖的美化技巧
演練:用Python庫作圖來實現產品銷量分析,并可視化
第四部分:數據挖掘基礎 目的:掌握數據挖掘標準流程
1、數據挖掘概述
2、數據挖掘的標準流程(CRISP-DM)? 商業理解 ? 數據準備 ? 數據理解 ? 模型建立 ? 模型評估 ? 模型應用
3、數據挖掘常用任務與算法
案例:用大數據實現精準營銷的項目過程
第五部分:數據理解和數據準備
目的:掌握數據預處理的基本環節,以及Python的實現
1、數據預處理
? 異常值處理:3σ準則,IQR準則 ? 缺失值插補:均值、拉格朗日插補 ? 數據篩選/抽樣 ? 數據的離散化處理 ? 變量變換、變量派生
2、數據的基本分析
? 相關分析:原理、公式、應用 ? 方差分析:原理、公式、應用 ? 卡方分析:原理、公式、應用 ? 主成分分析:降維
案例:用Python實現數據預處理及數據準備
第四部分:分類預測模型實戰
1、常見分類預測的模型與算法
2、如何評估分類預測模型的質量 ? 查準率 ? 查全率 ? ROC曲線
3、邏輯回歸分析模型 ? 邏輯回歸的原理 ? 邏輯回歸建模的步驟 ? 邏輯回歸結果解讀
案例:用sklearn庫實現銀行貸款違約預測
4、決策樹模型
? 決策樹分類的原理 ? 決策樹的三個關鍵問題 ? 決策樹算法與實現 案例:電力竊漏用戶自動識別
5、人工神經網絡模型(ANN)? 神經網絡概述 ? 神經元工作原理
? 常見神經網絡算法(BP、LM、RBF、FNN等)案例:神經網絡預測產品銷量
6、支持向量機(SVM)? SVM基本原理 ? 維災難與核心函數
案例:基于水質圖像的水質評價
7、貝葉斯分析 ? 條件概率 ? 常見貝葉斯網絡
第五部分:數值預測模型實戰
1、常用數值預測的模型 ? 通用預測模型:回歸模型
? 季節性預測模型:相加、相乘模型 ? 新產品預測模型:珀爾曲線與龔鉑茲曲線
2、回歸分析概念
3、常見回歸分析類別
第六部分:聚類分析(客戶細分)實戰
1、客戶細分常用方法
2、聚類分析(Clustering)? 聚類方法原理介紹及適用場景 ? 常用聚類分析算法 ? 聚類算法的評價
案例:使用SKLearn實現K均值聚類 案例:使用TSNE實現聚類可視化
3、RFM模型分析
? RFM模型,更深入了解你的客戶價值 ? RFM模型與市場策略 案例:航空公司客戶價值分析
第七部分:關聯規則分析實戰
1、關聯規則概述
2、常用關聯規則算法
3、時間序列分析
案例:使用apriori庫實現關聯分析 案例:中醫證型關聯規則挖掘
第八部分:案例實戰(學員主導,老師現場指導)
1、電商用戶行為分析及服務推薦
2、基于基站定位數據的商圈分析
結束:課程總結與問題答疑。
第四篇:數據挖掘技術在信用卡業務中的應用案例分享
數據挖掘技術在信用卡業務中的應用案例分享
信用卡業務具有透支筆數巨大、單筆金額小的特點,這使得數據挖掘技術在信用卡業務中的應用成為必然。國外信用卡發卡機構已經廣泛應用數據挖掘技術促進信用卡業務的發展,實現全面的績效管理。我國自1985年發行第一張信用卡以來,信用卡業務得到了長足的發展,積累了巨量的數據,數據挖掘在信用卡業務中的重要性日益顯現。
一、數據挖掘技術在信用卡業務中的應用
數據挖掘技術在信用卡業務中的應用主要有分析型客戶關系管理、風險管理和運營管理。
1.分析型CRM
分析型CRM應用包括市場細分、客戶獲取、交叉銷售和客戶流失。信用卡分析人員搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,分析某個客戶群體的特性、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體下一步的消費行為,然后以此為
基礎,對所識別出來的消費群體進行特定產品的主動營銷。這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而能為銀行帶來更多的利潤。對客戶采用何種營銷方式是根據響應模型預測得出的客戶購買概率做出的,對響應概率高的客戶采用更為主動、人性化的營銷方式,如電話營銷、上門營銷;對響應概率較低的客戶可選用成本較低的電子郵件和信件營銷方式。除獲取新客戶外,維護已有優質客戶的忠誠度也很重要,因為留住一個原有客戶的成本要遠遠低于開發一個新客戶的成本。在客戶關系管理中,通過數據挖掘技術,找到流失客戶的特征,并發現其流失規律,就可以在那些具有相似特征的持卡人還未流失之前,對其進行有針對性的彌補,使得優質客戶能為銀行持續創造價值。
2.風險管理
數據挖掘在信用卡業務中的另一個重要應用就是風險管理。在風險管理中運用數據挖掘技術可建立各類信用評分模型。模型類型主要有三種:申請信用卡評分卡、行為信用評分卡和催收信用評分卡,分別為信用卡業務提供事前、事中、和事后的信用風險控制。
申請評分模型專門用于對新申請客戶的信用評估,它應用于信用卡征信審核階段,通過申請人填寫的有關個人信息,即可有效、快速地辨別和劃分客戶質量,決定是否審批通過并對審批通過的申請人核定初始信用額度,幫助發卡行從源頭上控制風險。申請評分模型不依賴于人們的主觀判斷或經驗,有利于發卡行推行統一規范的授信政策。行為評分模型是針對已有持卡人,通過對持卡客戶的行為進行監控和預測,從而評估持卡客戶的信用風險,并根據模型結果,智能化地決定是否調整客戶信用額度,在授權時決定是否授權通過,到期換卡時是
否進行續卡操作,對可能出現的使其提前進行預警。催收評分模型是申請評分模型和行為評分模型的補充,是在持卡人產生了逾期或壞賬的情況下建立的。催收評分卡被用于預測和評估對某一筆壞賬所采取措施的有效性,諸如客戶對警告信件反應的可能性。這樣,發卡行就可以根據模型的預測,對不同程度的逾期客戶采取相應措施進行處理。以上三種評分模型在建立時,所利用的數據主要是人口統計學數據和行為數據。人口統計學數據包括年齡、性別、婚姻狀況、教育背景、家庭成員特點、住房情況、職業、職稱、收入狀況等。行為數據包括持卡人在過去使用信用卡的表現信息,如使用頻率、金額、還款情況等。由此可見,數據挖掘技術的使用,可以使銀行有效地建立起事前、事中到事后的信用風險控制體系。
3.運營管理
雖然數據挖掘在信用卡運營管理領域的應用不是最重要的,但它已為國外多家發卡公司在提高生產效率、優化流程、預測資金和服務需求、提供服務次序等問題的分析上取得了較大成績。
二、常用的數據挖掘方法
上述數據挖掘技術在信用卡領域的應用中,有很多工具可用于開發預測和描述模型。有些用統計方法,如線性回歸和邏輯回歸;有些有非統計或混合方法,如神經網絡、遺傳算法、決策樹及回歸樹。這里僅討論幾種常見的典型方法。
1.線性回歸
簡單線性回歸分析是量化兩個連續變量之間關系的一種統計技術。這兩個變量分別是因變量(預測變量)。使用這一方法,可以發現一條穿過數據的線,線上的點使對應數據點的方差最小。為市場營銷、風險和客戶關系管理建立模型時,通常有多個自變量,用多個獨立自變量來預測一個連續變量稱為多元線性回歸,用線性回歸方法建立的模型通常具有魯棒性。
2.邏輯回歸
邏輯回歸是使用最廣泛的建模技術,與線性回歸很相似。兩者的主要區別在于邏輯回歸的因變量(想預測變量)不是連續的,而是離散的或者類型變量。如申請評分模型可運用邏輯回歸方法,選取關鍵變量確定回歸系數。以申請者的關鍵變量x1,x2,…xm為自變量,以y=[1 申請者是壞客戶;0 申請者是好客戶,為因變量,則對于二分類因變量,一般假設客戶變壞的概率為 p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中,β0,β1…,βm是常數,即1n(p/1-p)=β0+β1×1+…+βmxm
3.神經網絡
神經網絡處理和回歸處理大不相同,它不依照任何概率分布,而是模仿人腦功能,可以認為它是從每一次經驗中提取并學習信息。神經網絡系統由一系列類似于人腦神經元一樣的節點組成,這些節點通過網絡彼此互連。如果有數據輸入,它們便可以進行確定數據模式的工作。神經網絡由相互連接的輸入層、中間層(或隱藏層)、輸出層組成。中間層由多個節點組成,完成大部分網絡工作。輸出層輸出數據分析的執行結果。
4.遺傳算法
與神經元網絡類似,遺傳算法也不遵循任何概率分布,是源自“適者生存”的進化過程。它首先將問題的可能解按某種形式進行編碼,編碼后的解稱為染色體。隨機選取n個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值。選擇適應值較高的染色體進行復制,并通過遺傳算子產生一群新的更適應環境的染色體,形成新的種群,直至最后收斂到一個最適應環境的個體,得到問題的最優化解。
5.決策樹
決策樹的目標是逐步將數據分類到不同的組或分支中,在因變量的值上建立最強劃分。由于分類規則比較直觀,所以易于理解。圖1為客戶響應的決策樹,從中很容易識別出響應率最高的組。
三、實例分析
以下以邏輯回歸方法建立信用卡申請評分模型為例,說明數據挖掘技術在信用卡業務中的應用。申請評分模型設計可分為7個基本步驟。
1.定義好客戶和壞客戶的標準
好客戶和壞客戶的標準根據適合管理的需要定義。按照國外的經驗,建立一個預測客戶好壞的風險模型所需的好、壞樣本至少各要有1000個左右。為了規避風險,同時考慮到信用卡市場初期,銀行的效益來源主要是銷售商的傭金、信用卡利息、手續費收入和資金的運作利差。因此,一般銀行把降低客戶的逾期率作為一個主要的管理目標。比如,將壞客戶定義為出現過逾期60天以上的客戶;將壞客戶定義為出現過逾期60天以上的客戶;將好客戶定義為沒有30天以上逾期且當前沒有逾期的客戶。
一般來講,在同一樣本空間內,好客戶的數量要遠遠大于壞客戶的數量。為了保證模型具有較高的識別壞客戶的能力,取好、壞客戶樣本數比率為1:1。
2.確定樣本空間
樣本空間的確定要考慮樣本是否具有代表性。一個客戶是好客戶,表明持卡人在一段觀察期內用卡表現良好;而一個客戶只要出現過“壞”的記錄,就把他認定為壞客戶。所以,一般好客戶的觀察期要比壞客戶長一些、好、壞客戶可以選擇在不同的時間段,即不同的樣本空間內。比如,好客戶的樣本空間為2003年11月-2003年12月的申請人,壞客戶的樣本空間為2003年11月-2004年5月的申請人,這樣既能保證好客戶的表現期較長,又能保證有足夠數量的壞客戶樣本。當然,抽樣的好、壞客戶都應具有代表性。
3.數據來源
在美國,有統一的信用局對個人信用進行評分,通常被稱為“FICO評分”。美國的銀行、信用卡公司和金融機構在對客戶進行信用風險分析時,可以利用信用局對個人的數據報告。在我國,由于征信系統還不完善,建模數據主要來自申請表。隨著我國全國性征信系統的逐步完善,未來建模的一部分數據可以從征信機構收集到。
4.數據整理
大量取樣的數據要真正最后進入模型,必須經過數據整理。在數據處理時應注意檢查數據的邏輯性、區分“數據缺失”和“0”、根據邏輯推斷某些值、尋找反常數據、評估是否真實??梢酝ㄟ^求最小值、最大值和平均值的方法,初步驗證抽樣數據是否隨機、是否具有代表性。
5.變量選擇
變量選擇要同時具有數學統計的正確性和信用卡實際業務的解釋力。Logistic回歸方法是盡可能準確找到能夠預測因變量的自變量,并給予各自變量一定權重。若自變量數量太少,擬合的效果不好,不能很好地預測因變量的情況;若自變量太多,會形成過分擬合,預測因變量的效果同樣不好。所以應減少一些自變量,如用虛擬變量表示不能量化的變量、用單變量和決策樹分析篩選變量。與因變量相關性差不多的自變量可以歸為一類,如地區對客戶變壞概率的影響,假設廣東和福建兩省對壞客戶的相關性分別為-0.381和-0.380,可將這兩個地區歸為一類,另外,可以根據申請表上的信息構造一些自變量,比如結合申請表上“婚姻狀況”和“撫養子女”,根據經驗和常識結合這兩個字段,構造新變量“已婚有子女”,進入模型分析這個變量是不真正具有統計預測性。
6.模型建立
借助SAS9軟件,用逐步回歸法對變量進行篩選。這里設計了一種算法,分為6個步驟。
? 步驟1:求得多變量相關矩陣(若是虛擬變量,則>0.5屬于比較相關;若是一般變量,則>0.7-0.8屬于比較相關)。
? 步驟2:旋轉主成分分析(一般變量要求>0.8屬于比較相關;虛擬變量要求>0.6-0.7屬于比較相關)。
? ? 步驟3:在第一主成分和第二主成分分別找出15個變量,共30個變量。步驟4:計算所有30個變量對好/壞的相關性,找出相關性大的變量加入步驟3得出的變量。
? 步驟5:計算VIF。若VIF數值比較大,查看步驟1中的相關矩陣,并分別分析這兩個變量對模型的作用,剔除相關性較小的一個。
? 步驟6:循環步驟4和步驟5,直到找到所有變量,且達到多變量相關矩陣相關性很而單個變量對模型貢獻作用大。7.模型驗證
在收集數據時,把所有整理好的數據分為用于建立模型的建模樣本和用于模型驗證的對照樣本。對照樣本用于對模型總體預測性、穩定性進行驗證。申請評分模型的模型檢驗指標包括K-S值、ROC、AR等指標。雖然受到數據不干凈等客觀因素的影響,本例申請評分模型的K-S值已經超過0.4,達到了可以使用的水平。
四、數據挖掘在國內信用卡市場的發展前景
在國外,信用卡業務信息化程度較高,數據庫中保留了大量的數量資源,運用數據技術建立的各類模型在信用卡業務中的實施非常成功。目前國內信用卡發卡銀行首先利用數據挖掘建立申請評分模型,作為在信用卡業務中應用的第一步,不少發卡銀行已經用自己的歷史數據建立了客戶化的申請評分模型??傮w而言,數據挖掘在我國信用卡業務中的應用處于數據質量問題,難于構建業務模型。
隨著國內各家發卡銀行已經建立或著手建立數據倉庫,將不同操作源的數據存放到一個集中的環境中,并且進行適當的清洗和轉換。這為數據挖掘提供了一個很好的操作平臺,將給數據挖掘帶來各種便利和功能。人民銀行的個人征信系統也已上線,在全國范圍內形成了個人信用數據的集中。在內部環境和外部環境不斷改善的基礎上,數據挖掘技術在信用卡業務中將具有越來越廣闊的應用前景。