第一篇:數據挖掘在圖書館用戶資源管理中的應用研究_周倩
數據挖掘在圖書館用戶資源管理中的應用研究
周 倩
(中科院文獻情報中心中科院研究生院,北京,100080)中42%的圖書館采用了數據挖掘技術,而剩余的 58%的還沒有采用數據挖掘技術的圖書館中有 98%的表示它們將在不久的未來采用數據挖掘技 術。此外,調查還顯示,目前圖書館采用數據挖掘技 術的主要模式是基于用戶數據與基于用戶行為的數 據挖掘,各種數據挖掘軟件或工具的發展與成熟為 圖書館利用數據挖掘技術提供了便利的條件[8]。與國外圖書館相比,數據挖掘技術目前在我國 圖書館中并沒有大規模地使用,只有為數不多的圖 書館采用了此項技術。但國內圖書館界已普遍認識 到,數據挖掘技術是圖書館現代化發展的關鍵技術, 將對圖書館信息資源建設和個性化、知識化服務的 發展起到至關重要的作用。基于數據挖掘的圖書館用戶資源管理
從以上分析可看出,用戶資源管理是圖書館應用 數據挖掘技術的主要領域之一,基于數據挖掘的圖書 館用戶資源管理主要體現兩層含義:一是圖書館利用 數據挖掘技術提高自身用戶資源管理的水平,實現分 析型用戶資源管理模式;二是圖書館以數據挖掘的需 求為牽引,組織好用戶資源管理的各項工作,從最初 用戶數據獲取開始就要以后期順利地實現數據挖掘 為目標,分析、設置好工作標準與內容意義。3.1 用戶數據搜集與存儲
用戶資源管理的第一步工作是搜集用戶數據。要實現對用戶數據的有效挖掘的基本條件是要將搜 集到的數據以一致的模式存儲,建立用戶數據倉庫。因此,可以說用戶數據倉庫建設是圖書館用戶資源 管理的基礎。
(1)搜集用戶數據。用戶數據按數據類型可大
致分為用戶描述類數據、用戶需求類數據、用戶行為 類數據和用戶反饋類數據四個類。目前,隨著數字 圖書館的深入發展,圖書館獲取用戶數據的技術與 渠道不斷拓寬,既可以通過傳統方式獲取,也可以在 數字圖書館服務過程中獲取。
(2)構建用戶數據倉庫。數據挖掘在集成、一
致、經過清理的數據上才能更好地實現,因此必須對 搜集到的圖書館用戶數據,進行數據清理、數據變 換、數據集成和數據裝入等必要的數據處理過程,建 立一個整合的、結構化的用戶數據倉庫,并及時更 新。圖書館通過多個渠道獲取的用戶數據中既有結 構化的、也有非結構化的。結構化數據如用戶借閱 資料的數量、Web訪問日志等數據,非結構化數據 如用戶反饋信息、用戶需求信息等。目前數據挖掘 的對象主要是結構化數據,因此,應盡可能采用多種 方法對非結構化的數據進行處理,將其轉化為結構 化數據。
3.2 用戶多維特征分析和群體分類
(1)用戶多維特征分析。針對數據倉庫中的圖
書館用戶數據,采用簡單關聯、時序關聯、因果關聯 等關聯分析與序列規則等數據分析與挖掘方法,對 圖書館用戶特征進行分析,挖掘用戶的隱性信息需 求,獲得對管理用戶與圖書館交互活動所必需的關 鍵性特征,并預測用戶未來的信息行為。圖書館用 戶特征主要由用戶的知識結構特征、用戶的信息需 求特征和用戶的信息行為特征組成。知識結構特征 說明了用戶目前對其專業領域或感興趣的專業領域 的知識掌握情況;用戶的信息需求特征表明了用戶 信息需求的專業范圍、載體、類型、語種以及用戶需 求的現有滿足程度等;用戶的信息行為特征反映了 用戶使用信息的習慣和模式,以及訪問信息的規律、特點和趨勢等。
(2)用戶群體聚類分類。對于圖書館用戶特征
進行多維分析的主要目標,并不是僅對單個用戶在 圖書館內的信息行為進行分析,而是希望對具有相 似特征的用戶建立模型,進行圖書館用戶的有效分 類與聚類,發現各種虛擬用戶社區,為針對不同類型 的用戶群提供不同的個性化服務方案[9]。對數據集 合的分類是數據挖掘技術的主要功能之一。圖書館 用戶分類是找出一組能夠描述用戶群體典型特征的 模型(或函數),以便能夠分類識別未知圖書館用戶 的歸屬或類別或預測未知圖書館用戶實例的歸屬類 別。分類挖掘所獲得的模型可以采用多種挖掘方式 獲得,按照難易程度分為分類規則(IF-THEN)、數 學公式(Mathematical formulae)、決策樹(Deci-siontrees)和神經網絡等方法。圖書館用戶聚類分 析是把一組圖書館用戶按照相似性和差異性分為幾 個類別,其目的是使得屬于同一類別的用戶間的相 似性盡可能大,不同類別中的數據間的相似性盡可 能小。每一個聚類分析所獲得的圖書館用戶組可以 看成是一個同類別歸屬的用戶對象集合,然后對這 些同類別數據集通過分類,獲得相應的分類預測模 型(規則)。由此,通過反復不斷地對所獲得的聚類 組進行聚類分析,可獲得初始圖書館用戶數據集合 的一個層次結構模型。
3.3 面向用戶生命周期的數據挖掘
圖書館用戶生命周期主要由三個階段組成:用
戶的獲取、用戶的保持和用戶的流失。圖書館用戶 資源管理的主要目標是要最大限度地延長用戶的生 89 周 倩:數據挖掘在圖書館用戶資源管理中的應用研究
Zhou Qian:A Study on the Application of Data Mining in the User Resources Management of Libraries 能真正以用戶使用的效益方式體現出來[2]。(2)用戶資源管理是圖書館個性化服務的重要基 礎。圖書館個性化信息服務的實質就是一種以用戶 需求為中心的服務方式。一個圖書館的個性化服務 的通常步驟為:一是收集用戶的各種信息;二是分析 用戶數據,創建符合用戶特性的訪問模式;三是結合 用戶特性,向用戶提供符合其特殊需求的個性化服 務[3]。圖書館用戶資源管理的本質與目標是對用戶 信息及信息行為經過深入的研究與分析,在滿足用戶 直接信息需求的基礎上,發掘用戶的潛在需求,使用 戶得到延伸的服務收益,以此給予用戶強烈的個性化 服務感受和“無縫式體驗”,提高滿意度,在實現用戶 價值最大化前提下實現用戶和圖書館雙贏。(3)用戶資源管理是圖書館知識管理的主要途
徑。圖書館實施知識管理的主要目的就是把最恰當 的知識在最恰當的時候傳遞給最恰當的用戶,這正 是與用戶資源管理的最終目標相一致的。圖書館用 戶資源管理中含有大量可供共享的信息,包括用戶 基本信息、需求信息、服務活動信息、服務效果信息 以及在整個用戶生命周期中同圖書館交互活動的信 息。用戶的信息就像原材料一樣,被進行系統整理、分析后可以在圖書館內部形成共享,從用戶信息變 為用戶知識。“用戶”、“知識”和“管理”處在一個封 閉的循環系統中,圖書館運用這個循環體系中的用 戶知識,從與用戶的交互活動中實現其社會價值。1.3 圖書館用戶資源管理現狀分析
用戶資源管理在實際運作中可以大致分為兩個 層次。一是描述型用戶資源管理。它更多關注用戶 信息的組織和管理的簡單化,包括用戶與圖書館交 流渠道的集成,用戶信息的歸檔與簡單化的定量統 計。二是分析型用戶資源管理。這種管理方式強調 對用戶數據進行規范化存儲、提取、處理、解釋,產生 相關用戶知識報告。可以說,分析型的用戶資源管 理通過對用戶數據的分析,真實反映用戶的行為特 征和屬性,并據此進行各種推理和分析,為圖書館決 策和服務行為提供客觀依據。就目前而言,國內大 多數圖書館用戶資源管理仍屬于描述型用戶資源管 理,還不能大范圍地實現對用戶屬性特征和信息行 為特征的整理和分析,不能廣泛地從用戶信息中發 現能夠反映其信息與服務需求特質的模式或模型并 進行相關用戶的規模化分類與聚類。而數據挖掘技 術的發展與在圖書館的應用則為圖書館解決上述問 題,突破描述型用戶資源管理的局限性,開展分析型 用戶資源管理提供了有力的支持和保障。2 圖書館研究與應用數據挖掘技術概況
數據挖掘(Data Mining)是從大量、不完全、有噪
聲、模糊、隨機的數據中,抽取出隱含在其中的、人們 事先不知道但又是潛在的、有價值的知識、模型或規 則的過程,是一類深層次的數據分析方法。它根據數 據的微觀特征,發現其表征的、帶有普遍性的、較高層 次概念的知識,是信息優勢成為知識優勢的基礎工 程。數據挖掘是一門交叉學科,包括機器學習、數理
統計、神經網絡、數據庫、模式識別、粗糙集、模糊數學 等相關技術。數據挖掘技術包括三個主要部分:算法 和技術、數據和建模能力;按照功能分為兩大類:預測 型(Predictive)模式和描述型(Descriptive)模式[4]。自20世紀90年代后期,圖書館開始高度關注 并研究數據挖掘技術,并致力于將其引入到圖書館 的現代化建設中,有不少圖書館學專家提出了面向 圖書館的數據挖掘技術應用理論與方法。例如: May Chau博士提出了幾種學術型圖書館與數 據挖掘的相關性理論模型,并且開發了圖書館網上 數據挖掘系統,幫助用戶查找信息[5]。Kyle Baner-jee先生研究了數據挖掘技術幫助圖書館的不同方 式。在1998年,他提出,全文本、動態變化的數據庫 更適于采用數據挖掘技術[5]。2002年,Nicholson 和Stanton就圖書館中的數據挖掘過程提出了一個 專業術語“Bibliomining”(書目挖掘),指出書目挖掘 是在圖書館中,將數據挖掘技術、書目計量方法、統 計學理論與報告工具有機結合在一起,從基于行為 的信息與數據中獲取隱含的模式[5]。1996年,ALA 的《Library Administration and Management》期刊 出版了一期關于圖書館數據挖掘的特刊,當時在文 章中提到的數據主要來自圖書館自動化系統,后來, 隨著數字圖書館的發展使得可以用于數據挖掘的數 據大幅度提高。鑒于此種情況,《Library Adminis-tration and Management》于2003年再次出版一期 以數字圖書館數據挖掘技術為主題的特刊,并列舉 了一些圖書館利用數據挖掘技術的實際案例[6]。2005年6月,OCLC公布了三個新的研究計劃,其 中之一就是數據挖掘研究計劃,其主要目標是通過 對WorldCat及其它數據源的挖掘,找到隱含的、有 用的信息,以此幫助圖書館管理者更好地做出館藏 建設與服務的決策[7]。
就圖書館利用數據挖掘技術的規模和應用潛 力,研究圖書館聯盟(ARL)2003年曾做過一次調 查。ARL中的124個會員圖書館參加了此次調查, 其中有52%的圖書館反饋了調研表。調查顯示這 88 2006年第6期
圖書·情報·知識
[摘要] 用戶資源管理是現代圖書館資源管理的核心內容,是圖書館實現個性化服務的重要基礎。
數據挖掘作為一種深層次的數據分析方法,可以從大量的數據中挖掘出反映用戶屬性特征和信息
行為特征的信息和規則,從而為圖書館用戶資源管理提供極大的幫助。基于數據挖掘的圖書館用
戶資源管理包括用戶數據搜集、用戶數據倉庫構建、用戶多維特征分析和群體分類、面向用戶生命
周期的數據挖掘等主要內容。
[關鍵詞] 數據挖掘 圖書館 用戶資源管理 應用 個性化服務 數據倉庫 [中圖分類號]G252 [文獻標識碼]A [文章編號]1003-2797(2006)06-0087-04 [Abstract] The user resources management of libraries based on data mining should include the following methods:collecting user data,constructing user data warehouse,analyzing user char-acteristics and classifying group,data mining for the whole user life cycle and so on.[Key words] Data mining Library User resources management Application Personalized services Data warehouse 1 圖書館用戶資源管理
圖書館用戶是指利用圖書館信息資源及信息服 務的一切個體或群體。圖書館用戶資源是圖書館在 長期的信息服務過程中逐步形成的,是圖書館服務 能力在社會關系體系中的呈現。與圖書其它資源相 比,用戶資源有它特殊的性質,例如動態的伸縮性和 拓展性,對其它類型資源強烈的依附性。1.1 圖書館用戶資源管理的內涵
在圖書館的發展歷程中,其資源的內涵不斷拓 展,資源管理的內容也不斷豐富。早期的圖書館資 源管理主要是指對有形的資產進行管理,包括文獻
資源管理、設備資源管理、人力資源管理、經費管理、服務場所管理等。其后圖書館資源概念擴展到無形 資產,包括服務品牌、圖書館文化等。但這種管理的 概念也僅僅局限于圖書館內部。在現代信息社會, 伴隨著數字圖書館的發展,圖書館將“用戶”這種外 部資源納入到自身的資源管理體系中,把用戶作為 圖書館的一種資源進行有效的管理,并實現與圖書 館其它資源的整合。
從資源管理的理論層面上講,用戶資源管理是 對有使用價值的用戶資源,通過有效的管理與控制
[作者簡介] 周倩,女,1972年生,中國科學院文獻情報中 心及中科院研究生院在讀博士生,中國國防科技信息中心副 研究館員,發表論文20多篇。
程序,來實現圖書館某種服務效益的目標活動。從 實際工作層面上講,用戶資源管理主要是指對用戶 和圖書館之間的交互活動進行管理,具體包括用戶 信息管理、用戶服務活動管理、用戶后期支持管理。用戶信息管理的主要任務是系統地搜集、組織與存 儲用戶的相關信息,通過對用戶信息的統計和分析, 明確用戶信息需求和服務需求,劃分用戶群;用戶服 務活動管理則負責將對用戶在圖書館內的信息行為 進行管理,針對用戶個性化需求,制定出圖書館相應 的信息資源建設和服務策略,實現與用戶服務活動 相關的所有信息的集成;用戶后期支持管理主要是 對用戶接受服務后的情況進行跟蹤了解和分析,發 現問題,提出不斷修正和提高的方案[1]。1.2 用戶資源管理在圖書館中的重要地位(1)用戶資源管理是圖書館管理的核心。圖書
館管理主要包括三個方面:一是信息資源管理,即對 信息的搜集、加工、組織、開發利用等實施全壽命管 理;二是信息環境管理,主要包括信息技術管理、信 息政策管理、組織機構管理、設施與經費管理以及人 力資源管理;三是用戶資源管理。其中,用戶資源管 理是核心內容,信息資源管理與信息環境管理必須 以用戶資源管理的要求和目標開展工作,因為只有 這樣才能將“用戶”作為一種資源有效地貫穿于圖書 館管理工作的全過程中,圖書館管理的效果與價值 87 命周期,抑制用戶的流失。
(1)用戶的獲取。圖書館要在競爭日益激烈的
服務環境中生存和壯大就需要不斷獲得新的用戶, 維持老的用戶,而當用戶數量不斷增長,用戶的細節 因素增多時,要為用戶提供更好的服務并贏得更多 的用戶只能依靠數據挖掘技術才能完成。利用數據 挖掘中的一些技術(如統計回歸、邏輯回歸、決策樹、神經網絡)揭示新用戶的行為習慣,生成預測模型和 建立評分模型,預測發現一些在不同情況下有相似 行為的新用戶,對潛在用戶進行篩選,有效增加服務 推廣效應,把潛在的用戶名單和這些用戶感興趣的 資源與服務系統地結合起來,為每一個用戶提供主 動化、個性化服務,使潛在用戶轉化為正式用戶,以 不斷地獲取新用戶。
(2)用戶的保持與流失。用戶保持與圖書館服
務能力息息相關。圖書館用戶流失的主要原因之一 就是圖書館對用戶的關懷和服務不夠,因此保持原 有用戶的工作對于圖書館來說變得非常重要。數據 挖掘技術可以對用戶數據倉庫中的大量數據進行分 析和處理,以識別、分析和評價用戶流失風險,分析 出用戶為什么會流失?哪些因素會導致用戶的流 失?用戶流失風險主要來自于何處?如何保留住圖 書館的高價值用戶?在用戶保持中,一般涉及3個 過程:首先,建立模型用來預測和識別潛在的流失用 戶;其次,通過數據挖掘識別潛在流失用戶中的圖書 館重要用戶;第三,利用聚類分析等方法對圖書館重 要用戶中的潛在流失者進行分析挖掘,識別其行為 模式等,從而有針對性地采取相應的服務措施,保留 住用戶[10]。幾個相關問題的思考
首先是數據挖掘精度的問題。當前許多數據挖 掘系統或工具都是數據驅動的數據挖掘,僅僅是在 數據內容上產生規則,因此來源數據的準確性對數 據挖掘精度將會產生很大的影響。此外,數據挖掘 不是萬能的,而只是一個工具,它只是幫助圖書館工 作人員更深入、更容易地分析數據,它無法告訴你某 個用戶模型對你的圖書館的實際價值。而且數據挖 掘中得到的模型必須要在實踐中進行驗證。將本體 理論與數據挖掘技術相結合是有效解決數據挖掘精 度問題的一種途徑,因為基于用戶本體的數據挖掘 將利用領域知識或背景知識,可在高層次上進行數 據挖掘,產生高層次或多層次的規則,甚至是具有語 義意義的規則,同時可利用本體進行數據預處理,提 高待挖掘數據的質量[11]。
其次是用戶隱私保護問題。在構建用戶數據倉
庫的前期,對于用戶數據進行預處理階段要注意將顯 示用戶隱私的數據處理掉,例如對不愿透露自己IP 地址的用戶,如果日志記錄訪問時間為10:32/10-29-02,可以用102902-1032-A作為其IP地址代碼[12]。第三是數據挖掘系統嵌入圖書館其它應用系統 的問題。目前數據挖掘技術正在不斷發展和成熟, 許多數據挖掘工具可以和圖書館相關應用系統集 成,成為嵌入式的技術。參考文獻 周倩.構建圖書館現代化CRM系統.圖書情報工作, 2004(6)2 周倩.復合圖書館信息資源管理研究.圖書情報知識, 2003(5)3 馮是聰單松巍等.基于Web挖掘的個性化技術研究.Http://net.cs.pku.edu.cn/~webg/twpaper/fsch web personalize.pdf(2005-11-08)4 朱建平,張潤楚等.數據挖掘的發展及其特點.知識叢 林,2002(7)5 Scott Nicholson.Bibliomining for Automated Collection Development in a Digital Library Setting:Using Data Mining to Discover Web-Based Scholarly Research Works.Http://dlist.sir.arizona.edu/625/01/asisdiss.html(2005-10-26)6 Nicholson,Scott and Stanton,Jeffrey.Gaining Strategic Advantage through Bibliomining:Data Mining for Man-agement Decisions in Corporate,Special,Digital,and Traditional Libraries.Http://dlist.sir.arizona.edu/826/(2005-12-28)7 New OCLC Research projects:Curiouser,Data Mining, and WikiD(nee MetaWiki).Http://(2005-10-28)10楊中華.數據挖掘在客戶關系管理中的應用研究.湖北 汽車工業學院學報,2004(1)11邢平平等.基于本體論的數據挖掘方法.計算機工程, 2001(5)12 Scott Nicholson.The Bibliomining Process:Data Ware-housing and Data Mining for Library Decision-Making(收稿日期:2006-04-10)
第二篇:基于屬性重要度約簡算法在數據挖掘中的應用研究論文
摘 要:屬性約簡是粗糙集理論研究的核心內容之一,本文通過對屬性重要度的計算,以核為基礎計算條件屬性集中除核以外其他屬性的重要性來確定最小的約簡,最后通過實例分析驗證了算法的有效性與可行性。
關鍵詞:數據挖掘 屬性約簡 重要度
數據挖掘是從海量的且不斷動態變化的數據中,借助有效的方法挖掘出潛在、有價值的知識過程。而粗糙集理論它是一種刻畫不完整性和不確定性的數學工具,能在保持分類能力不變的前提下,通過知識約簡從中發現隱含的知識,揭示潛在的規律,是由波蘭科學家Pawlak在1982年提出的。而屬性約簡是粗糙集理論研究的核心內容之一,它能保證在分類能力不變的情況下,消除重復、冗余的屬性和屬性值,減少數據挖掘要處理的信息量,提高數據挖掘的效率。本文提出了通過計算單個屬性的重要性,以重要性大于零的屬性為核,來選取其它屬性加入核中形成新的集合RED,直至剩下的所有屬性的重要性為零,得到的集合REDn即為屬性約簡。粗糙集的基本理論[1-2]
定義1設 是一個信息系統,其中 是對象的非空有限集合,即;是屬性的非空有限集合;,是屬性 的值域;是一個信息函數,即每個對象在每個屬性上對應的信息值。若,其中 為非空有限條件屬性集合,為非空有限決策屬性集合,且,則稱信息系統為決策表。
定義2對決策表,,考慮單決策屬性的情況,即,則的分辨矩陣是一個 矩陣,其中的元素定義如下:
定義3對分辨矩陣中每個,用布爾函數 來表示,若,則決策表的分辨函數 可定義為:。基于粗糙集的數據挖掘的屬性約簡算法[3-4]
2.1 算法分析
第一步:求核。通過求條件屬性C中的每個屬性a對在整個條件屬性集C的重要性SigC(x)來確定屬性核CORE(x),重要性SigC(x)>0的屬性為核屬性。
第二步:通過向屬性核CORE(x)中依次加入重要性大的屬性來確定屬性集x的最小約簡,詳細步驟如下:(1)把a加入到屬性集R 中,計算重要性,選擇重要性最大的屬性;(2)如果兩個屬性有相同的重要性,取離散值小的屬性。
2.2 算法復雜度
通過算法的分析,在對決策表進行劃分的時間復雜度為O(n2)。而計算條件屬性的重要性也是滿足劃分的線性關系,因此所求屬性核的時間復雜度為O(n2),依次添加次重要度的屬性也沒有增加額外的開銷,因此整個時間復雜度還是O(n2)。
2.3 實例及分析
為了進一步驗證算法的可行性,下面以表1中的決策表為例進行分析說明,其中對象集,條件屬性集,決策屬性。
以上對計算出的實驗數據的重要性進行統計得出信息系統的兩個約簡為{c1,c4}和{c2,c4}。結語
本文針對屬性約簡算法中的屬性重要度的計算來確定核,適合對海量數據的挖掘,不僅節省了存儲空間,而且在時間復雜度開銷少,通過實驗分析驗證了算法的可行性與有效性,為決策表的屬性約簡提供了一條高效的途徑。
參考文獻:
[1]張文修,吳偉志.粗糙集理論與方法[M].北京:科學出版社,2001:18-19
[2]周獻中,黃兵,李華雄,等.不完備信息系統知識獲取的粗糙集理論與方法[M].南京:南京大學出版社,2010:10-11
[3]饒泓,夏葉娟,李娒竹.基于分辨矩陣和屬性重要度的規則提取算法[J].計算機工程與應用,2008,44(3):163-165
[4]黃國順,劉云生.一種改進的決策表屬性重要性及其快速約簡算法[J].計算機工程與應用,2007,43(28):173-176
第三篇:關于數據挖掘在出口退稅中的應用
關于數據挖掘在出口退稅中的應用引言
出口貨物退(免)稅,簡稱 出口退稅,其基本含義是一個國家或地區對已報送離境的出口貨物,由稅務機關將其在出口前的生產和流通的各環節已經繳納的國內產品稅、增值稅、營業稅和特別消費稅等間接稅稅款退還給出口企業的一項稅收制度。出口退稅 主要是通過退還出口貨物的國內已納稅款來平衡國內產品的稅收負擔,使本國產品以不含稅成本進入國際市場,與國外產品在同等條件下進行競爭,從而增強競爭能力,擴大出口創匯[1]。
我國從1985年開始,全面地實行了 出口退稅 政策,并從1995年開始全面實行電子化管理,它是全國稅務系統第一個全面推廣應用的稅收管理軟件,是金關工程和金稅工程的一個子系統,在強化出口退稅管理,提高出口退稅工作效率,防范和打擊騙稅上發揮了巨大的作用[2]。但是,目前的出口退稅電子化管理只完成了出口退稅業務的電子化操作,還未在決策的電子化方面取得較大進展。經過十多年的發展,積累了大量涉稅信息,如何將這些“歷史的、靜態的”數據變成動態的、具有分析決策性質的信息已成為當前急需研究的課題[3],數據挖掘技術的出現使這種應用成為現實。出口退稅數據挖掘的目的和基本方法
現行的出口退稅電子化管理主要是通過出口企業把申報退稅的信息通過出口退稅申報系統錄入計算機并生成申報數據,然后再經過出口退稅審核系統把企業申報的出口退稅憑證的電子信息與稅務機關接收到的其他部門(征稅機關、海關 和外管)傳來的憑證信息進行比對,以達到審核出口退稅憑證的合法性和真實性的目的,進而根據比對審核通過的數據進行退稅。可以看出,目前的出口退稅電子化管理只側重了出口退稅的 單證 信息的計算機審核,而對于挖掘審核通過的 單證 信息和各部門傳遞來的電子信息的價值方面存在著很大的不足。隨著金稅二期網絡建設的推動,各省現已基本實現了出口退稅數據的省級大集中[4],這些數據都是各出口退稅部門在日常的業務審核中積累下來的數據,十分寶貴,如何充分發揮其應有的作用,已成為人們研究的熱點。1
數據挖掘的目的就是分析出口企業的出口退稅數據,挖掘這些數據與經濟的內在聯系,全面掌握本地區出口退稅的產品結構、出口的貿易方式、出口產品的地區差異等,對于調整一個地區的產業結構、經濟發展方向以及制定經濟發展戰略有著重要的參考價值;對于稅務機關掌握出口企業的實際生產出口情況,培養稅源,打擊偷稅漏稅和防范出口騙稅等方面有著重要的意義。
對于出口退稅部門在日常的業務審核中積累下來的數據進行挖掘,主要是指在了解和掌握具體納稅人生產經營情況和財務數據的基礎上,對納稅人的稅收經濟關系和稅收繳納狀況進行客觀評價和說明的分析,主要是通過對歷史數據進行縱橫比較分析和邏輯關系稽核來進行挖掘,以指導稅收管理工作。
1)橫向比較分析
橫向比較分析是指同一指標在不同個體、單位、地區之間的比較分析。橫向比較分析最典型的分析例子就是同業稅負分析。受市場均衡作用的影響,同一產品在生產技術工藝、原材料能源消耗方面有相近之處,適用稅收政策有統一的要求,因此反映生產成本費用方面的指標有相同的規律特征。總結這種規律特征,以此檢驗個體數據指標的表現,找出差異較大的個體予以預警。
2)縱向比較分析
縱向比較分析或歷史數據分析是指同一個體的同一指標在不同歷史時期的數據比較分析。常用的分析方法有趨勢分析和變動率分析。分析的理論依據是大多情況下企業的生產經營是處于一種相對平穩的狀態,不會出現突然的波動或大起大落現象。因此,如果企業生產能力沒有作大的調整,一般情況下企業各個時期的數據指標彼此接近,不會出現大的差異。如果出現較大差異,應引起主管部門的注意,及時進行相關的納稅評估。
3)數據邏輯關系稽核
受會計核算原理的約束和稅收制度規定的制約,反映納稅人生產經營情況和財務狀況的眾多數據指標之間存在非常嚴謹的、相互依存的邏輯關系。這種邏輯關系決定了企業的納稅申報數據必須滿足企業財務數據相關性的特定要求,檢查這些數據邏輯關系是否吻合,可以鑒別企業申報數據的真實性和合理性,從而發現稅收問題,堵塞征管漏洞。出口退稅數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能:
1)趨勢預測
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。出口退稅數據挖掘的預測趨勢是對納稅人特定稅收指標、經濟指標或稅收經濟關系指標一段時期走勢和趨向的分析和推斷,了解和掌握稅收經濟的發展趨勢,有利于判斷未來出口退稅形勢的好壞,使出口退稅做到心中有數。
趨勢預測的兩個基本要求是說明特定指標的發展方向和變化幅度,基礎分析技術是時間序列分析技術,常用說明指標有變動率和平均變化速度等。
2)關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
在出口退稅評估工作中,可以利用企業財務報表、納稅申報表和出口退稅匯總表等各項數據指標之間的相互邏輯關系進行核算檢查,對于不滿足應有邏輯計算關系的內容,即認為破壞了會計核算或稅款計征關系,均應視為異常做進一步的深入分析。由于企業財務指標和出口退稅申報數據有上百條之多,所以與此相關的邏輯計算關系也會在此基礎上更為豐富和復雜,只有通過關聯分析,才有可能在出口退稅申報環節實現實時的出口退稅評估工作。
3)聚類分析
聚類分析是數理統計的一個分支,是運用事物本身所具有的某種數據特征,遵循“物以類聚”規律進行數據處理,為事物的分類管理提供數據支持的一種分析方法。借用這種方法開展稅收分析,可將具有某種稅收共同特征的事物聚集在一起,使我們更清楚地認識稅收征管工作的分類特征。
聚類分析的基本原理是根據數據指標差異的絕對距離進行分類,結合矩陣分析技術,可以進行多指標的綜合特征分析,為復雜事物的分類提供了一種可行的分析方法。聚類分析的關鍵是找到一組關系密切的相關指標,如退稅增長、稅源增長、退稅變化彈性和出口影響等,均可以利用這一分析技術進行綜合分析和技術處理。
4)差異分析
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些差異很有意義。差異包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。
差異分析的基本方法是測算不同樣本同一指標的差異程度。差異分析的關鍵是建立評價差異的標準,有了標準才能說明差異的影響程度。表示差異程度可以用絕對值,也可以建立參照系用相對值。應用差異分析開展微觀稅收分析的典型分析案例就是同業稅負分析模型。應用同業稅負分析模型可以測算出各項相關指標的客觀水平和樣本離散狀況,以此為標準比對個別檢驗樣本的具體數值,超出差異允許界限的即為預警對象。
5)波動分析
波動分析是描述稅收事物運行變化平穩性的分析。稅收事物的運行受經濟變化影響、稅收制度規定的約束和現有征管環境制約有其自身客觀的規律。在經濟
運行相對平穩、稅制不變的條件下,稅收事物運行平穩與否,直接反映稅收征管情況的影響作用。因此,開展波動分析,一定程度上可以了解和說明退稅管理的表現,反映退稅管理是否能按稅源的發展變化規律同步開展,監督退稅管理的執行情況。出口退稅數據挖掘的實現
出口退稅數據挖掘應用系統由三部分組成:第一部分是由用戶數據源到中央數據庫的ETL過程;第二部分是根據出口退稅業務模型建立業務智能分析模型;第三部分是面向稅收管理人員進行數據的發布和多維分析工作。基本結構如圖1所示。
數據的ETL(Extract-Transform-Load,數據抽取、轉換、裝載)過程采用微軟的SSIS(SQL Server Integration Services)來完成數據預處理階段對于原始數據的轉換、清洗加載過程;中央數據庫采用微軟的SQL Server 2005,SQL Server 2005除了提供一個安全、可靠和高效的數據管理平臺之外,它還是一個企業級數據整合平臺,通過SSIS提供了構建企業級ETL應用程序所需的功能和性能,是一個集成的商業智能平臺,通過Analysis Services提供了統一和集成的商業數據視圖,可被用做所有傳統報表、OLAP分析、關鍵績效指標(KPI)記分卡和數據挖掘的基礎。
SQL Server 2005分析服務提供了數據挖掘服務,支持集成其它個人或者企業的DM算法,并且將DM算法集成的復雜度不斷降低,它主要是基于OLE DB for DM規范,使用靈活。開發人員能夠利用數據挖掘功能開發應用程序,其數據挖掘語言非常類似于SQL,數據挖掘供應者是一個開放系統,因為它是OLE DB的一個部件,數據挖掘服務能夠通過DSO(Decision Support Object)、或ADO可包含在任何用戶應用程序中。將DM算法無縫集成到SQL Server的分析服務中,利用集成的DM算法來構建數據挖掘解決方案是一種理想的方式。
在SQL Server 2005數據挖掘平臺中,創建關系型挖掘模型的語法如下:
Create mining model()using
它類似于建立一個關系表,其中包括輸入、預測屬性,每一個模型與一個數據挖掘算法相關聯。
多維數據分析工具和報表工具使用統一空間模型UDM(Unified Dimensional Model),利用UDM中對業務實體的友好描述、等級導航、多視角、自動平滑 翻譯 為本機語言等功能,可以實現出口退稅數據挖掘過程中所得到的結果集的友好展示。結束語
隨著數據倉庫技術的發展,數據挖掘會越來越發揮其獨到的分析優勢,特別是將挖掘出的新知識通過用基于OLAP的決策支持系統加以驗證、結合,可以更好地為決策者服務。出口退稅管理的電子化系統已經積累了大量的業務數據,可以為數據挖掘提供大量數據,數據倉庫和數據挖掘技術在收稅管理具有廣闊的應用前景。
第四篇:數據挖掘在房地產營銷中的應用
文章摘要:信息資源的分析、整合在房地產行業的競爭中起著越來越重要的作用。數據挖掘作為一種系統地檢查和理解大量數據的工具,能有效地幫助房地產企業從不斷積累與更新的數據中提取有價值的信息。因此,數據挖掘被引入到房地產市場研究領域,并日益受到重視。本文從數據挖掘在房地產行業中的市場研究價值入手,分析了數據挖掘在房地產市場研究尤其是客戶信息中的應用,并加以舉例說明。關鍵詞:數據挖掘 關聯分析 分類
一、房地產行業需要數據挖掘技術的支持
隨著房地產行業競爭的加劇,房地產企業要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業擁有大量的數據積累,包括行業信息、經濟環境信息、客戶信息等。這些數據是房地產企業市場運作的重要參考。面對快速增長的海量數據收集,企業需要有力的數據分析工具將“豐富的數據”轉換成“有價值的知識”,否則大量的數據將成為“數據豐富,但信息貧乏”的“數據墳墓”。
數據挖掘(Data Mining)是從大量數據中發現潛在關聯、模式,做出預測性分析的有效工具,它是現有的一些人工智能、統計學等技術在數據庫領域中的應用。應用數據挖掘有助于發現業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出解決問題所需要的關鍵因素,使企業處于更有利的競爭位置。
二、數據挖掘在房地產行業的應用
1.數據挖掘的概念
對于企業的海量信息存儲,數據挖掘是一種系統地檢查和理解大量數據的工具。數據挖掘根據預定義的商業目標,對大量的企業數據進行探索和分析,揭示其中隱含的商業規律,并進一步生成相應的分析、預測模型。
數據挖掘發現的是以前未知的、可理解的、可執行的信息,所以也被稱為“知識發現”(Knowledge Discovery in Databases)。與統計分析技術相比,數據挖掘技術能很好地和數據庫技術相結合,而且數據挖掘工具用以發現數據中隱含的商業規律的方法已不局限于統計技術,還包括神經網絡、遺傳算法、自組織圖、神經模糊系統等統計學科以外的方法。數據挖掘發現的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統計分析師的背景知識,再被統計分析師應用到數據分析中。
數據挖掘任務一般可以分兩類:描述和預測。描述性挖掘任務刻劃數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,以進行預測。具體來講,數據挖掘主要用于解決以下幾種不同事情:
(1)關聯分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一事件中出現的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。
(2)分類(Classification)和預測(Prediction)。分類根據某種標準將數據庫記錄分類到許多預先定義好的類別中。例如,將房地產企業客戶根據消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業、家庭構成等個人屬性,預測他們在購房支出;如將房地產企業客戶分為潛在客戶、購買者和實際客戶。分類系統可以產生這樣的規則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業務訪問,那么他/她是一個購買者。”
(3)聚類(Clustering)是把整個數據庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數據盡量相似。聚類與分類不同:分類之前已經知道要把數據分成哪幾類,每個類的性質是什么;聚類則恰恰相反。
(4)演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發展趨勢、社會經濟發展趨勢進行房地產消費趨向的分析。
(5)描述和可視化(Description and Visualization),對數據進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區域的形象化描述。
2.數據挖掘的市場研究價值
數據挖掘技術在商業上實際應用十分豐富。應用數據挖掘技術,可以幫助房地產行業找出有價值的信息,十分有助于企業發現商機、制定開發計劃與營銷策略。對于房地產市場研究,數據挖掘可以應用于宏觀經濟形勢研究、市場發展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:
(1)宏觀經濟形勢研究——1)房地產周期時序分析中的相似搜索:可找出已有房地產周期數據庫中與給定查詢序列最接近的數據序列。比較識別兩個相似時間段間數據系列的主要差異,對房地產市場的宏觀分析很有參考價值。2)宏觀經濟形勢研究——房地產周期一般性因素關聯分析:一般而言,房地產周期是影響不動產收益的一系列因素組成的總體概念。各因素均會對總體房地產周期起決定作用。關聯分析方法可用于幫助發現各因素和房地產周期間的交叉與聯系。
(2)市場發展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團購買房地產比重的擬合與分析;3)對房地產銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發展水平等動態的分析、總結和評價,及時獲得準確數據,輔助經營決策。
(3)樓盤供應研究——地理發展空間的多維分析:綜合人口住房條件及分布、土地利用現狀及政府規劃、交通現狀分布信息,通過聚集及層次化描述,發掘區域內需建立的高檔別墅、高、中、低檔公寓的數量及各自的地理位置和發展計劃。
(4)客戶研究——客戶信息的多維關聯和序列模式分析:關聯分析可在客戶信息中發現客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。
目前,專業市場研究公司對房地產行業的調研主要集中在客戶需求分析方面,并積累了一定的經驗,因此,本文主要探討房地產客戶信息的數據挖掘。
3.數據挖掘在房地產客戶研究中有著廣泛的應用
房地產行業的客戶信息有許多特點,如下圖所示,一方面房地產行業面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。
對于復雜、多樣而且擅變的客戶信息,房地產行業客戶信息的數據挖掘有助于識別客戶購買行為,發現客戶購買模式和趨勢。從而,幫助房地產企業改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業成本。根據已有的數據挖掘經驗,數據挖掘在房地產行業的應用可以歸納成以下幾個方面:
4.明確商業目標
三、如何在房地產行業應用數據挖掘技術
應用數據挖掘的首要任務就是明確需要達到什么樣的商業目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測數據挖掘效果,判斷建立的模型的有效性。例如,下列目標是大而空的目標:獲得客戶行為的了解;在數據中發現有用的模型;發現一些有意思得東西。而另外一些目標有較強操作性:發現哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。
5.數據準備
基于數據挖掘的商業目標,提取所需要的數據。為了保證數據的質量,除了對數據進行必要地檢查和修正外,還需要考慮不同源之間數據的一致性問題。
如果數據集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當的減少輸入的字段。常用的方法包括:“描述型數據挖掘”、連結分析等。
很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數據。因此,在數據準備階段需考慮是否創建一些新的變量。
處理缺失數據也是數據準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。
6.建立模型
建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發對數據的理解并加以修改,甚至改變最初對問題的定義。
一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數據的預處理工作。例如,神經網絡需要做數據轉換,有些數據挖掘工具可能對輸入數據的格式有特定的限制等。
接下來是建立模型的工作。對于通過數據挖掘建立的模型需要有一定的數據來測試和驗證。對于預測性任務,需通過反復的測試、驗證、訓練,才能不斷提高模型的準確率。
大部分數據挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經網絡既可以用于建立分類樹,也可建立回歸樹。
7.輸出結果的評價和解釋
模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數據的不同發生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。
直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意后再向大范圍推廣。
8.實施
模型在建立并經驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數據庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。
在應用模型之后,還要不斷監控模型的效果。即使模型的運用很成功,也不能放棄監控。因為事物在不斷發展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。
四、應用舉例:基于客戶分類的關聯分析
1.商業目標
為了更詳盡地了解客戶的消費決策,本案例設計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結果可以被用于預測性分析,例如預測客戶最傾向于做出哪種購買行為。2.數據準備
本案例中采用某一時點上的房地產消費者需求抽樣調查,取出描述消費者個人屬性和消費特點的字段。
3.建立模型
(1)對數據進行分類
本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。
案例得到的抽樣數據顯示,盡管地理位置是影響一個房地產項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關注程度為分類標準,構建了一個簡單的決策樹。決策樹中根據購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關型五種類型。下表是應用決策樹得到的客戶分類結果。從各客戶群評分的均值和標準差可以看出,各客戶群具有較好的組內相似性和組間差異性,說明所構建的決策樹的分類結果比較理想,可用于進一步的分析。
(2)關聯分析運用關聯分析的目的是尋找數據庫中值的相關性。本例采用基于興趣度的關聯規則挖掘算法,挖掘每類客戶不同屬性間的相關性。經過挖掘,發現一些值得深入探討的關聯,見下表:
注:a)支持率反映了關聯是否是普遍存在的規律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關聯規則描述。
b)可信度反映了關聯規則前提成立的條件下結果成例的概率。本例中,可信度=15%可以解釋為,對應的客戶群中有15個人符合關聯規則的描述。
c)興趣度反映了關聯規則中元素的關系的密切程度。興趣度越大于1說明該規則中的元素的關系越密切,該規則的實際利用價值越大。
d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領域專家設定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。
上表中列出的關聯規則均有較高的支持率、可信度和興趣度。為了更加準確地挖掘關聯規則。對挖掘出的關聯規則更換因果關系,形成新的關聯規則與之進行對比。如下例:
關聯規則A1:地理位置無關型客戶=≥重視物業管理
支持率=9.7% 可信度=30.3% 興趣度=2.4與
關聯規則B1:重視物業管理 =≥地理位置無關型客戶
支持率=9.7% 可信度=76.9% 興趣度=2.4
對比兩個關聯規則將發現,“重視物業管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業管理”的可能性(30.3%)。說明關聯規則B1:重視物業管理=≥地理位置無關型客戶是一條更有意義的關聯規則。
其他被發掘的關聯也可以通過類似的比較,進行深一步的挖掘。在此不再全部做出詳細分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業經驗進行統計分析,往往會因為分析人員的主觀性或者數據量太大難以實施而存在信息提取的局限性。而通過數據挖掘得到的信息,一方面能彌補直接應用統計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業背景知識;另一方面可以通過反復的驗證、機器學習建立模型,直接成為分析人員的分析、預測的工具。
需要說明:
a)本案例的目的在于說明數據挖掘算法的應用價值,得到的結果僅供參考,并不作為定論,而且數據挖掘的結果需要由行業內的商業分析人員判斷:是否真的具有意義,是否有進一步分析、探討的價值。也就是說數據挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業內商業分析人員的分析工作。
b)案例中的數據挖掘作為方法應用的探討,如要生成一個可操作的模型工具還需足夠的數據集支持進行測試、驗證、訓練才能不斷提高模型的準確率。
c)本案例中解決問題的方法不是唯一的,可能應用其他的分類手段、分類標準能得到更好的結果。具體方法的應用要取決于實施人員的建模能力、行業經驗。也就是說,數據挖掘對人員有較高的要求。數據挖掘的人員不僅要有良好的統計概念、建模能力,還要懂得基本的商業和行業概念。
五、房地產行業數據挖掘的應用前景
隨著IT/Internet等新技術發展,市場研究在房地產行業的應用已經不再局限于數據采集和簡單的歸納、數據分析。更高的決策服務是建立在更大量的“數據——信息——知識”的基礎上的,因此數據挖掘、商業智能等概念與技術的引入促進了數據挖掘在房地產行業的應用。與此同時,隨著房地產企業數據挖掘應用的深入,數據、數據挖掘的任務和數據挖掘方法的多樣性將給數據挖掘提出了許多挑戰性的課題。例如:
1、應用地理信息系統(GIS)尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互。
2、web挖掘:由于web上存在大量信息,隨著web的發展,有關web內容挖掘、web日志挖掘等網絡上的數據挖掘將成為數據挖掘中一個最為重要和繁榮的應用領域。房地產公司的企業形象宣傳、營銷、客戶維護等工作都將離不開網絡,也必然將需要web挖掘數據支持。
第五篇:基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘
基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘
近期參加了CCF舉辦的“大數據精準營銷中搜狗用戶畫像挖掘”競賽,最終得到復賽第32名。正好這學期《機器學習與數據挖掘》課程需要一個實驗報告的大作業,于是就那它來寫了。本博文會在這幾周不斷的完善更新ing
1.選題背景與意義
1.1 用戶畫像與精準營銷
“用戶畫像”是近幾年誕生的名詞。很多營銷項目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫像。在以前,大多媒體會針對自身用戶做一個分類,但是有了大數據后,企業及消費者行為帶來一系列改變與重塑,通過用戶畫像可以更加擬人化的描述用戶特點。
用戶畫像,即用戶信息標簽化,就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之后,完美地抽象出一個用戶的商業全貌,可以看作是企業應用大數據技術的基本方式。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
消費方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說,基于用戶畫像上的精準營銷不管對企業還是對用戶來說,都是有需求的,這會給雙方交易帶來極大便捷,也為雙方平等溝通搭建了一個暢通平臺。
1.2 搜索引擎下用戶畫像的挑戰
在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動性、查詢的實時性等,帶來了與企業傳統的對用戶信息進行收集與分析有著巨大的不同、更加艱巨的挑戰。
例如,我們實時獲取到的是用戶的查詢語句,而由于用戶的流動性,并不能直接獲取到如年齡、性別、學歷等用戶的標簽信息。這么一來,也就無法根據用戶屬性對用戶進行分群處理,而后再通過推薦系統進行產品上的優化
1.3 本文內容概要
本文內容概要如下:
第1章:簡介用戶畫像與搜索引擎下用戶畫像的精準營銷的挑戰。第2章:說明實驗集群、數據與課題研究目標。
第3章:介紹使用分詞工具對用戶的搜索詞列進行分詞,以及相關的優化方案。第4章:介紹在分詞的基礎上,對文本進行特征的抽取與轉換,以及相關的優化方案。第5章:介紹在原始特征向量上,進行聚類與降維。第6章:介紹實驗中試驗過各分類模型 第7章:介紹模型參數調優
第8章:總結本課題研究中不足與展望后續的優化方案 第9章:參考文獻 2.課題實驗準備
2.1 Spark集群
節點 cdh01 cdh02 cdh03 cdh04 備注
8核,32G內存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 2.2 數據集
數據文件 備注
Train.csv 帶標注的訓練集 Test.csv 測試集 2.3 數據介紹
本數據來源于搜狗搜索數據,ID經過加密,訓練集中人口屬性數據存在部分未知的情況(需要解決方案能夠考慮數據缺失對算法性能的影響)。數據所有字段如下表所示:
字段 ID age 說明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲
Gender 0:未知1:男性2:女性
Education 0:未知學歷;1:博士;2:碩士;3:大學生;4:高中;5:初中;6:小學 Query List 搜索詞列表 2.4 數據示例
對于train.csv中的數據記錄:
00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務描述
根據提供的用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數據,通過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行判定。
3.查詢詞分詞
3.1 NLPIR
NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取;張華平博士先后傾力打造十余年,內核升級10次。
全球用戶突破20萬,先后獲得了2010年錢偉長中文信息處理科學技術獎一等獎,2003年國際SIGHAN分詞大賽綜合第一名,2002年國內973評測綜合第一名。
我們傳入每個用戶的搜索詞列,表經過NLPIR分詞工具得到的分詞。之后,我們做個進一步的優化策略:
3.1.1 去停用詞
我們根據分詞后詞語所帶的詞性,對一些特征代表性不夠強的詞語進行過濾:
for(int i = 0;i < sbtmp.length();++i){
char cc = sbtmp.charAt(i);
if(cc == ' '){
sbtmp.deleteCharAt(i);
--i;
} else if(cc == '/'){
// 去詞條件
Boolean isdel =
// 1.去標點
(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')
// 2.疑問詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'
&& sbtmp.charAt(i + 2)== 'y')
// 3.數字
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')
// 4.連詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')
// 5.副詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')
// 6.嘆詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')
// 7.擬聲詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')
// 8.介詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')
// 9.量詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')
// 10.助詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')
// 11.純動詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'
&& sbtmp.charAt(i + 2)== ' ');
// 去詞
if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'
&& sbtmp.charAt(i + 1)!= 'h'
&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){
while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
while(i >= 0 && sbtmp.charAt(i)!= ','){
sbtmp.deleteCharAt(i);
--i;
}
}
// 若無需去詞,把‘/’轉為‘,’,并去除隨后的詞性標志
else {
sbtmp.setCharAt(i, ',');
while(sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
}
}
}
for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){
sbtmp.deleteCharAt(i);
--i;
}
// 去中間單個字
else if(sbtmp.charAt(i1);
sbtmp.deleteCharAt(i1] == Y[j1][j1][j];
//刪除X第i個字符
t1 = t1 < dp[i][j1];
//刪除Y第j個字符
t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同
dp[i][j] = t1 + 1;
這里我們所使用的優化方案為:
對整個訓練集和測試集的搜索詞列做分詞后的詞頻統計表
對每個用戶的搜索詞列分詞后的各個詞與詞頻統計表各詞(排除前者自身)進行編輯距離計算。得到詞頻統計表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個詞頻最高的詞將該詞替代。4.7 額外增加數據量
在大數據時代背景下,只要數據量足夠的大,反而我們所選用的不同的算法模型對最終的預測準確率的影響會變小,獲取更多數據會使模型更完善更準確。我們這里用不同方案所得到的分詞結果,人為的增加訓練集的數據。如將10萬條記錄的訓練集進行NLPIR分詞得到結果,與進行”結巴”提取關鍵詞得到的結果拼接,就將訓練集記錄人為的翻倍了。后續的分類實驗中證明了,使用該方案,在模型相同的情況下,相比原來會有1%左右的準確率的提升。
5.聚類與降維
2009年結束的Nexfix競賽表明,很多參數團隊用到的高等矩陣因子分解對模型提高預測準確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過這些屬性來描述用戶。20世紀80年代后期,利用潛在的”語義”屬性的思想被成功的應用于信息檢索領域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發現文檔中的潛在的屬性。[2]而本課題在實驗中會使用到LDA方法。
5.1 LDA
隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測主題)。甚至可以說LDA模型現在已經成為了主題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計模型的角度來說,我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型中生成的。也就是說 在主題模型中,主題表現為一系列相關的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現概率較高的單詞(參見下面的圖),這些單詞與這個主題有很強的相關性。這里寫圖片描述
LDA可以用來識別大規模文檔集或語料庫中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。
LDA可以被認為是如下的一個聚類過程:
各個主題(Topics)對應于各類的“質心”,每一篇文檔被視為數據集中的一個樣本。
主題和文檔都被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型)
與采用傳統聚類方法中采用距離公式來衡量不同的是,LDA使用一個基于統計模型的方程,而這個統計模型揭示出這些文檔都是怎么產生的。5.1.1 模型訓練
Spark API 參數介紹:
K:主題數量(或者說聚簇中心數量)
maxIterations:EM算法的最大迭代次數,設置足夠大的迭代次數非常重要,前期的迭代返回一些無用的(極其相似的)話題,但是繼續迭代多次后結果明顯改善。我們注意到這對EM算法尤其有效。,至少需要設置20次的迭代,50-100次是更合理的設置,取決于數據集。
docConcentration(Dirichlet分布的參數α):文檔在主題上分布的先驗參數(超參數α)。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。topicConcentration(Dirichlet分布的參數β):主題在單詞上的先驗分布參數。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。checkpointInterval:檢查點間隔。maxIterations很大的時候,檢查點可以幫助減少shuffle文件大小并且可以幫助故障恢復。
val lda=new LDA()
.setK(20)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(100)
val model=lda.fit(dataset_lpa)
5.1.2 模型評價
生成的model不僅存儲了推斷的主題,還包括模型的評價方法。模型的評價指標:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
用評價方法,在online 方法下,對setMaxIter進行調參:
for(i<-Array(5,10,20,40,60,120,200,500)){
val lda=new LDA()
.setK(3)
.setTopicConcentration(3)
.setDocConcentration(3)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(i)
val model=lda.fit(dataset_lpa)
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
println(s“$i $ll”)
println(s“$i $lp”)}
可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數需要設置50次以上,才能收斂:
5.1.3 對語料的主題進行聚類
val topicsProb=model.transform(dataset_lpa)
topicsProb.select(“label”, “topicDistribution”)show(false)
/**
+-----++
|label|topicDistribution
|
+-----++
|0.0 |[0.***,0.***147,0.***77] |
|1.0 |[0.***3,0.***623,0.***]
|
|2.0 |[0.***7,0.***417,0.***]
|
...*/
label是文檔序號,文檔中各主題的權重,我們可以將該DataFrame帶入后續的分類器中,進行訓練。
5.1.4 其他聚類與降維
Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權重,以便于后續的分類。但是由于LDA在主題聚類上的典型性,我們的課題實驗只試驗了LDA的方案