第一篇:Web使用挖掘在電子商務個性化服務中的應用
Web使用挖掘在電子商務個性化服務中的應用
摘要
電子商務的快速發展和電子商務系統積累大量的數據為Web使用挖掘提供了一個廣闊的應用領域。通過Web使用挖掘技術挖掘出電子商務用戶潛在模式,對用戶提供個性化服務。
關鍵詞: Web挖掘技術
電子商務 個性化服務
隨著Internet應用迅速發展,電子商務以其成本低廉、快捷、不受時空限制為許多企業提供了新的發展機會,但是這種新型的商務模式也對企業提出了新的挑戰。一方面,24小時的在線銷售讓用戶有了更為便捷、更為廣泛的選擇,企業之間的競爭驟然加??;另一方面,虛擬的網絡環境讓用戶不能直接接觸商品、不能全面地了解商品的質量特征,增加了用戶挑選商品的難度。因此,如何利用技術手段了解電子商務系統用戶的偏好、習慣、購物模式和潛在的消費意識,為不同用戶提供不同的信息和商品服務策略,以完成對用戶個性化服務已
成為電子商務企業獲取成功的關鍵。電子商務企業收集了大量的Web使用上的電子數據,采用數據挖掘技術發現這些數據的規律性,提取出有效信息,為企業實施“一對一服務”提供了可能。
1.電子商務中Web使用挖掘的資源
Web使用挖掘是對用戶訪問Web時在服務器方留下的訪問記錄進行挖掘,對了解用戶 的網絡行為數據所具有的意義,Web使用挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據,這些數據總結起來有以下幾種類型:
1.1 Web日志數據
當用戶訪問電子商務系統,Web服務器便會自動建立該用戶的訪問日志信息。用戶每訪問一個頁面,Web服務器的日志中就會增加一條記錄不同的Web服務器產品,其日志格式不同,但通常都包括訪問者的IP地址、訪問時間、訪問方式(GET或POST)、訪問的頁面、協議、錯誤代碼以及傳輸的字節數等信息。通過這些日志文件還能夠得到查詢數據,它是電子商務站點在服務器上產生的一種典型數據,是在線客戶在查詢需要的信息時生成的。如在線存儲的客戶也許會搜索一些產品或某些廣告信息,這些查詢信息就通過cookie或登記信息連接到服務器的訪問日志上。
1.2用戶注冊數據
用戶注冊數據是指用戶通過網頁輸入提交給服務器的相關信息。因為HTTP協議是無狀態的,所以不能區分和跟蹤一個訪問者在網站上的所有行為,僅依靠分析日志文件所得到的用戶信息是很少的。因此要吸引訪問者成為注冊用戶,以便得到更多的用戶信息,例如姓名、職業、收入、年齡、地址、愛好等。
1.3用戶交易數據
用戶交易數據主要是用戶的歷史購買信息,如商品代碼、數量、價格等。
2.電子商務中Web使用挖掘的流程
Web使用挖掘遵循傳統數據挖掘的研究思路,挖掘過程分為三個步驟:數據預處理、模式發現和模式分析。
2.1數據預處理
實際系統中的數據一般都具有不完全性、冗余性和模糊性。為了使數據挖掘的過程效率更高,數據挖掘的結果更合理、用于挖掘的數據應該準確、簡介且易于處理,為此要通過數據預處理。數據預處理包括數據清理、用戶識別、會話識別和路徑補充事件識別和格式化等處理。
2.2模式發現
模式發現階段就是對預處理后的數據利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識。可用于We b使用的挖掘技術有路徑分析、關聯規則、分類分析、聚類分析、序列分析等等。路徑分析是用于發現一個站點中最經常被訪問的路徑;關聯規則揭示數據項之間的內在的聯系;分類分析是給出類的公共屬性描述,并將新的記錄分配到預先定義好的類中或分類新的項。聚類分析是分類的逆過程,按照“類內相似性最大,類間相似性最小”的原則,對數據進行類的聚集。序列分析挖掘出數據的前后時間順序關系分析是否存在一定趨勢,以預測未來的訪問模式。
2.3模式分析
模式分析的目的是根據實際應用,通過觀察和選擇,將發現的統計結果、規則和模型轉化為知識、再經過某種度量得到真正有價值的模式,即我們感興趣的模式,使用可視化技術以圖形界面的方式提供給使用者,模式分析常用的方法有信息過濾、可視化、聯機分析等。
3.電子商務個性化服務中Web使用挖掘的應用
個性化服務是針對不同的用戶提供不同的服務策略和服務內容的服務模式。電子商務個性化服務通過收集和挖掘用戶的興趣和行為來實現以用戶需求為中心的Web服務。因此,基于Web使用挖掘的個性化服務體系包括收集用戶興趣和行為的用戶信息收集模塊、挖掘用戶興趣和行為的用戶建模模塊、個性化服務模塊和用戶四個層次,其結構見圖1。
在個性化服務體系結構中,用戶信息收集模塊是個性化服務系統的基礎模塊。用戶訪問的過程中產生的信息有:用戶輸入搜索引擎的查詢關鍵詞、用戶瀏覽的頁面、用戶瀏覽的行為、用戶手工輸入的其他信息、用戶的購物過程、用戶交易結果等等,這些信息可通過Web服務器和數據庫服務器中獲取。個性化服務系統收集到用戶信息后,提交給用戶建模模塊來進行處理,構建用戶模型。個性化服務模塊根據用戶模型向用戶提供相應的服務,如個性化的網頁、個性化的商品、個性化的信息服務。根據服務形式的不同,個性化服務模塊提供的功能也不一樣,如提供個性化Web頁面的過程,個性化服務模塊需分析用戶的當前會話,識別出用戶的當前會話后,得到用戶當前訪問頁面集合,然后與用戶模型相匹配,將匹配后推薦頁面的地址附加到用戶當前請求的頁面的底部發送給用戶,這些被推薦的頁面不一定是用戶計劃要訪問的頁面,而是用戶可能比較感興趣的頁面。當用戶訪問時,看到這樣針對他本人特點的推薦,有可能會對其中的一些頁面進行訪問,對頁面中的商品進行購買。用戶對個性化服務的反饋用于調整個性化服務系統。
參考文獻
1.韓家煒,孟小峰.web挖掘研究[J].計算機研究與發展.2001(4)
2.粱英.電子商務個性化推薦技術研究[J].商場現代化.2007(9)
3.王玉珍.Web使用模式挖掘在電子商務中的應用[J].計算機應用研究.2003(10)
4.靳明霞,李玉華,管建軍.序列模式挖掘在電子商務個性化服務中的應用[J]、計算機技術
與發展.2006(10)
5.趙艷霞.梁昌勇.基于關聯規則的推薦系統在電子商務中的應用[J].價值工程,2006(5)
第二篇:數據挖掘電子商務應用中調研報告
調
研
報
告
調研題目: :關于數據挖掘在電子商務中
應用得調研報告
指導老師: :
學生姓名:
學
號:
西安交通大學軟件學院2016 年 年 3 3 月 月 2 2 1日
關于數據挖掘在電子商務中應用得
調研報告
摘要
電子商務正處在蓬勃發展得大好時期,它所產生得豐富得信息資源,為數據挖掘得應用開辟了廣闊得應用舞臺。本文通過優化企業資源、管理客戶數據、評估商業信用、確定異常事件四個方面來闡述數據挖掘在電子商務中得應用,揭示了數據挖掘在電子商務中得廣闊得應用前景.關鍵詞:電子商務;數據挖掘;調查報告 目 錄 一、概述
隨著網絡技術與數據庫技術得成熟,全球傳統商務正經歷一次重大變革,向電子商務全速挺進。電子商務就是商業領域得一種新興商務模式,它就是以網絡為平臺,以現代信息技術為手段,以經濟效益為中心得現代化商業運轉模式,其最終目標就是實現商務活動得網絡化、自動化與智能化。電子商務得產生改變了企業得經營理念、管
理方式與支付手段,給社會得各個領域帶來了巨大得變革。隨著網絡技術得迅猛發展與社會信息化水平得提高,電子商務顯示出巨大得市場價值與發展潛力。
當電子商務在企業中得到應用時,企業信息系統將產生大量數據,并且迫切需要將這些數據轉換成有用得信息與知識,為企業創造更多潛在得利潤,數據挖掘概念就就是從這樣得商業角度開發出來得。數據挖掘就是一種新得商業信息處理技術,其主要特點就是對商業數據庫中得大量業務數據進行抽取、轉換、分析與其她模型化處理,從中提取輔助商業決策得關鍵性數據。利用功能強大得數據挖掘技術,可以使企業把數據轉化為有用得信息幫助決策,從而在市場競爭中獲得優勢地位。
二、數據挖掘在電子商務中得應用
1、優化企業資源
節約成本就是企業盈利得關鍵。基于數據挖掘技術,實時、全面、準確地掌握企業資源信息,通過分析歷史得財務數據、庫存數據與交易數據,可以發現企業資源消耗得關鍵點與主要活動得投入產出比例,從而為企業資源優化配置提供決策依據,例如降低庫存、提高庫存周轉率、提高資金使用率等。通過對 Web 數據挖掘,快速提取商業信息,使企業準確地把握市場動態,極大地提高企業對市場變化得響應能力與創新能力,使企業最大限度地利用人力資源、物質資源與信息資源,合理協調企業內外部資源得關系,產生最佳得經濟效益。促進企業發展得科學化、信息化與智能化。
例如:美國運通公司(American Express)有一個用于記錄信用卡業務得數據庫,數據量達到54 億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”得促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大得折扣,這樣既可以增加商店得銷售量,也可以增加運通卡在該商店得使用率。
2、管理客戶數據
隨著“以客戶為中心”得經營理念得不斷深入人心,分析客戶、了解客戶并引導客戶得需求已成為企業經營得重要課題?;跀祿诰蚣夹g,企業將最大限度地利用客戶資源,開展客戶行為得分析與預測,對客戶進行分類。有助于客戶盈利能力分析,尋找潛在得有價值得客戶,開展個性化服務,提高客戶得滿意度與忠誠度.通過 Web 資源得挖掘,了解客戶得購買習慣與興趣,從而改善網站結構設計,推出滿足不同客戶得個性化網頁。
利用數據挖掘可以有效地獲得客戶.比如通過數據挖掘可以發現購買某種商品得消費者就是男性還就是女性,學歷、收入如何,有什么愛好,就是什么職業等等。甚至可以發現不同得人在購買該種商品得相關商品后多長時間有可能購買該種商品,以及什么樣得人會購買什么型號得該種商品等等。在采用了數據挖掘后,針對目標客戶發送得廣告得有效性與回應率將得到大幅度得提高,推銷得成本將大大降低.同時,在客戶數據挖掘得基礎上,企業可以發現重點客戶與評價市
場性能,制定個性化營銷策略,拓寬銷售渠道與范圍,為企業制定生產策略與發展規劃提供科學得依據。通過呼叫中心優化與客戶溝通得渠道,提高對客戶得響應效率與服務質量,促進客戶關系管理得自動化與智能化。
成功案例:美國得讀者文摘(Reader‘s Digest)出版公司運行著一個積累了 40 年得業務數據庫,其中容納有遍布全球得一億多個訂戶得資料,數據庫每天 24 小時連續運行,保證數據不斷得到實時得更新,正就是基于對客戶資料數據庫進行數據挖掘得優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊與聲像制品得出版與發行業務,極大地擴展了自己得業務。
3、評估商業信用
低劣得信用狀況就是影響商業秩序得突出問題,已經引起世人得廣泛關注。由于網上詐騙現象層出不窮,企業財務“造假“現象日益嚴重,信用危機成為制約電子商務發展得重要因素.利用數據挖掘技術對企業經營進行跟蹤,開展企業得資產評估、利潤收益分析與發展潛力預測,構建完善得安全保障體系,實施網上全程監控,強化網上交易與在線支付得安全管理。基于數據挖掘得信用評估模型,對交易歷史數據進行挖掘,發現客戶得交易數據特征,建立客戶信譽度級別,有效地防范與化解信用風險,提高企業信用甄別與風險管理得水平與能力.4、確定異常事件
在許多商業領域中,異常事件具有顯著得商業價值,如客戶流失、銀行得信用卡欺詐、電信中移動話費拖欠等.通過數據挖掘中得奇異點分析可以迅速準確地甄別這些異常事件,為企業采取決策提供依據,減少企業不必要得損失。
三、總結
電子商務就是現代信息技術發展得必然結果,也就是未來商業運作模式得必然選擇。電子商務領域具有豐富得信息資源,為數據挖掘得應用開辟了廣闊得應用舞臺.數據挖掘將為電子商務提供有力得技術支持,極大地促進電子商務得發展與普及,推動電子商務得應用進程.數據挖掘技術作為電子商務得重要應用技術之一,將為正確得商業決策提供強有力得支持與可靠得保證,就是電子商務不可缺少得重要工具,有著廣闊得發展前景.
第三篇:關于數據挖掘在出口退稅中的應用
關于數據挖掘在出口退稅中的應用引言
出口貨物退(免)稅,簡稱 出口退稅,其基本含義是一個國家或地區對已報送離境的出口貨物,由稅務機關將其在出口前的生產和流通的各環節已經繳納的國內產品稅、增值稅、營業稅和特別消費稅等間接稅稅款退還給出口企業的一項稅收制度。出口退稅 主要是通過退還出口貨物的國內已納稅款來平衡國內產品的稅收負擔,使本國產品以不含稅成本進入國際市場,與國外產品在同等條件下進行競爭,從而增強競爭能力,擴大出口創匯[1]。
我國從1985年開始,全面地實行了 出口退稅 政策,并從1995年開始全面實行電子化管理,它是全國稅務系統第一個全面推廣應用的稅收管理軟件,是金關工程和金稅工程的一個子系統,在強化出口退稅管理,提高出口退稅工作效率,防范和打擊騙稅上發揮了巨大的作用[2]。但是,目前的出口退稅電子化管理只完成了出口退稅業務的電子化操作,還未在決策的電子化方面取得較大進展。經過十多年的發展,積累了大量涉稅信息,如何將這些“歷史的、靜態的”數據變成動態的、具有分析決策性質的信息已成為當前急需研究的課題[3],數據挖掘技術的出現使這種應用成為現實。出口退稅數據挖掘的目的和基本方法
現行的出口退稅電子化管理主要是通過出口企業把申報退稅的信息通過出口退稅申報系統錄入計算機并生成申報數據,然后再經過出口退稅審核系統把企業申報的出口退稅憑證的電子信息與稅務機關接收到的其他部門(征稅機關、海關 和外管)傳來的憑證信息進行比對,以達到審核出口退稅憑證的合法性和真實性的目的,進而根據比對審核通過的數據進行退稅??梢钥闯觯壳暗某隹谕硕愲娮踊芾碇粋戎亓顺隹谕硕惖?單證 信息的計算機審核,而對于挖掘審核通過的 單證 信息和各部門傳遞來的電子信息的價值方面存在著很大的不足。隨著金稅二期網絡建設的推動,各省現已基本實現了出口退稅數據的省級大集中[4],這些數據都是各出口退稅部門在日常的業務審核中積累下來的數據,十分寶貴,如何充分發揮其應有的作用,已成為人們研究的熱點。1
數據挖掘的目的就是分析出口企業的出口退稅數據,挖掘這些數據與經濟的內在聯系,全面掌握本地區出口退稅的產品結構、出口的貿易方式、出口產品的地區差異等,對于調整一個地區的產業結構、經濟發展方向以及制定經濟發展戰略有著重要的參考價值;對于稅務機關掌握出口企業的實際生產出口情況,培養稅源,打擊偷稅漏稅和防范出口騙稅等方面有著重要的意義。
對于出口退稅部門在日常的業務審核中積累下來的數據進行挖掘,主要是指在了解和掌握具體納稅人生產經營情況和財務數據的基礎上,對納稅人的稅收經濟關系和稅收繳納狀況進行客觀評價和說明的分析,主要是通過對歷史數據進行縱橫比較分析和邏輯關系稽核來進行挖掘,以指導稅收管理工作。
1)橫向比較分析
橫向比較分析是指同一指標在不同個體、單位、地區之間的比較分析。橫向比較分析最典型的分析例子就是同業稅負分析。受市場均衡作用的影響,同一產品在生產技術工藝、原材料能源消耗方面有相近之處,適用稅收政策有統一的要求,因此反映生產成本費用方面的指標有相同的規律特征??偨Y這種規律特征,以此檢驗個體數據指標的表現,找出差異較大的個體予以預警。
2)縱向比較分析
縱向比較分析或歷史數據分析是指同一個體的同一指標在不同歷史時期的數據比較分析。常用的分析方法有趨勢分析和變動率分析。分析的理論依據是大多情況下企業的生產經營是處于一種相對平穩的狀態,不會出現突然的波動或大起大落現象。因此,如果企業生產能力沒有作大的調整,一般情況下企業各個時期的數據指標彼此接近,不會出現大的差異。如果出現較大差異,應引起主管部門的注意,及時進行相關的納稅評估。
3)數據邏輯關系稽核
受會計核算原理的約束和稅收制度規定的制約,反映納稅人生產經營情況和財務狀況的眾多數據指標之間存在非常嚴謹的、相互依存的邏輯關系。這種邏輯關系決定了企業的納稅申報數據必須滿足企業財務數據相關性的特定要求,檢查這些數據邏輯關系是否吻合,可以鑒別企業申報數據的真實性和合理性,從而發現稅收問題,堵塞征管漏洞。出口退稅數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能:
1)趨勢預測
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。出口退稅數據挖掘的預測趨勢是對納稅人特定稅收指標、經濟指標或稅收經濟關系指標一段時期走勢和趨向的分析和推斷,了解和掌握稅收經濟的發展趨勢,有利于判斷未來出口退稅形勢的好壞,使出口退稅做到心中有數。
趨勢預測的兩個基本要求是說明特定指標的發展方向和變化幅度,基礎分析技術是時間序列分析技術,常用說明指標有變動率和平均變化速度等。
2)關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
在出口退稅評估工作中,可以利用企業財務報表、納稅申報表和出口退稅匯總表等各項數據指標之間的相互邏輯關系進行核算檢查,對于不滿足應有邏輯計算關系的內容,即認為破壞了會計核算或稅款計征關系,均應視為異常做進一步的深入分析。由于企業財務指標和出口退稅申報數據有上百條之多,所以與此相關的邏輯計算關系也會在此基礎上更為豐富和復雜,只有通過關聯分析,才有可能在出口退稅申報環節實現實時的出口退稅評估工作。
3)聚類分析
聚類分析是數理統計的一個分支,是運用事物本身所具有的某種數據特征,遵循“物以類聚”規律進行數據處理,為事物的分類管理提供數據支持的一種分析方法。借用這種方法開展稅收分析,可將具有某種稅收共同特征的事物聚集在一起,使我們更清楚地認識稅收征管工作的分類特征。
聚類分析的基本原理是根據數據指標差異的絕對距離進行分類,結合矩陣分析技術,可以進行多指標的綜合特征分析,為復雜事物的分類提供了一種可行的分析方法。聚類分析的關鍵是找到一組關系密切的相關指標,如退稅增長、稅源增長、退稅變化彈性和出口影響等,均可以利用這一分析技術進行綜合分析和技術處理。
4)差異分析
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些差異很有意義。差異包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。
差異分析的基本方法是測算不同樣本同一指標的差異程度。差異分析的關鍵是建立評價差異的標準,有了標準才能說明差異的影響程度。表示差異程度可以用絕對值,也可以建立參照系用相對值。應用差異分析開展微觀稅收分析的典型分析案例就是同業稅負分析模型。應用同業稅負分析模型可以測算出各項相關指標的客觀水平和樣本離散狀況,以此為標準比對個別檢驗樣本的具體數值,超出差異允許界限的即為預警對象。
5)波動分析
波動分析是描述稅收事物運行變化平穩性的分析。稅收事物的運行受經濟變化影響、稅收制度規定的約束和現有征管環境制約有其自身客觀的規律。在經濟
運行相對平穩、稅制不變的條件下,稅收事物運行平穩與否,直接反映稅收征管情況的影響作用。因此,開展波動分析,一定程度上可以了解和說明退稅管理的表現,反映退稅管理是否能按稅源的發展變化規律同步開展,監督退稅管理的執行情況。出口退稅數據挖掘的實現
出口退稅數據挖掘應用系統由三部分組成:第一部分是由用戶數據源到中央數據庫的ETL過程;第二部分是根據出口退稅業務模型建立業務智能分析模型;第三部分是面向稅收管理人員進行數據的發布和多維分析工作?;窘Y構如圖1所示。
數據的ETL(Extract-Transform-Load,數據抽取、轉換、裝載)過程采用微軟的SSIS(SQL Server Integration Services)來完成數據預處理階段對于原始數據的轉換、清洗加載過程;中央數據庫采用微軟的SQL Server 2005,SQL Server 2005除了提供一個安全、可靠和高效的數據管理平臺之外,它還是一個企業級數據整合平臺,通過SSIS提供了構建企業級ETL應用程序所需的功能和性能,是一個集成的商業智能平臺,通過Analysis Services提供了統一和集成的商業數據視圖,可被用做所有傳統報表、OLAP分析、關鍵績效指標(KPI)記分卡和數據挖掘的基礎。
SQL Server 2005分析服務提供了數據挖掘服務,支持集成其它個人或者企業的DM算法,并且將DM算法集成的復雜度不斷降低,它主要是基于OLE DB for DM規范,使用靈活。開發人員能夠利用數據挖掘功能開發應用程序,其數據挖掘語言非常類似于SQL,數據挖掘供應者是一個開放系統,因為它是OLE DB的一個部件,數據挖掘服務能夠通過DSO(Decision Support Object)、或ADO可包含在任何用戶應用程序中。將DM算法無縫集成到SQL Server的分析服務中,利用集成的DM算法來構建數據挖掘解決方案是一種理想的方式。
在SQL Server 2005數據挖掘平臺中,創建關系型挖掘模型的語法如下:
Create mining model()using
它類似于建立一個關系表,其中包括輸入、預測屬性,每一個模型與一個數據挖掘算法相關聯。
多維數據分析工具和報表工具使用統一空間模型UDM(Unified Dimensional Model),利用UDM中對業務實體的友好描述、等級導航、多視角、自動平滑 翻譯 為本機語言等功能,可以實現出口退稅數據挖掘過程中所得到的結果集的友好展示。結束語
隨著數據倉庫技術的發展,數據挖掘會越來越發揮其獨到的分析優勢,特別是將挖掘出的新知識通過用基于OLAP的決策支持系統加以驗證、結合,可以更好地為決策者服務。出口退稅管理的電子化系統已經積累了大量的業務數據,可以為數據挖掘提供大量數據,數據倉庫和數據挖掘技術在收稅管理具有廣闊的應用前景。
第四篇:數據挖掘在房地產營銷中的應用
文章摘要:信息資源的分析、整合在房地產行業的競爭中起著越來越重要的作用。數據挖掘作為一種系統地檢查和理解大量數據的工具,能有效地幫助房地產企業從不斷積累與更新的數據中提取有價值的信息。因此,數據挖掘被引入到房地產市場研究領域,并日益受到重視。本文從數據挖掘在房地產行業中的市場研究價值入手,分析了數據挖掘在房地產市場研究尤其是客戶信息中的應用,并加以舉例說明。關鍵詞:數據挖掘 關聯分析 分類
一、房地產行業需要數據挖掘技術的支持
隨著房地產行業競爭的加劇,房地產企業要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業擁有大量的數據積累,包括行業信息、經濟環境信息、客戶信息等。這些數據是房地產企業市場運作的重要參考。面對快速增長的海量數據收集,企業需要有力的數據分析工具將“豐富的數據”轉換成“有價值的知識”,否則大量的數據將成為“數據豐富,但信息貧乏”的“數據墳墓”。
數據挖掘(Data Mining)是從大量數據中發現潛在關聯、模式,做出預測性分析的有效工具,它是現有的一些人工智能、統計學等技術在數據庫領域中的應用。應用數據挖掘有助于發現業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出解決問題所需要的關鍵因素,使企業處于更有利的競爭位置。
二、數據挖掘在房地產行業的應用
1.數據挖掘的概念
對于企業的海量信息存儲,數據挖掘是一種系統地檢查和理解大量數據的工具。數據挖掘根據預定義的商業目標,對大量的企業數據進行探索和分析,揭示其中隱含的商業規律,并進一步生成相應的分析、預測模型。
數據挖掘發現的是以前未知的、可理解的、可執行的信息,所以也被稱為“知識發現”(Knowledge Discovery in Databases)。與統計分析技術相比,數據挖掘技術能很好地和數據庫技術相結合,而且數據挖掘工具用以發現數據中隱含的商業規律的方法已不局限于統計技術,還包括神經網絡、遺傳算法、自組織圖、神經模糊系統等統計學科以外的方法。數據挖掘發現的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統計分析師的背景知識,再被統計分析師應用到數據分析中。
數據挖掘任務一般可以分兩類:描述和預測。描述性挖掘任務刻劃數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,以進行預測。具體來講,數據挖掘主要用于解決以下幾種不同事情:
(1)關聯分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一事件中出現的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。
(2)分類(Classification)和預測(Prediction)。分類根據某種標準將數據庫記錄分類到許多預先定義好的類別中。例如,將房地產企業客戶根據消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業、家庭構成等個人屬性,預測他們在購房支出;如將房地產企業客戶分為潛在客戶、購買者和實際客戶。分類系統可以產生這樣的規則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業務訪問,那么他/她是一個購買者?!?/p>
(3)聚類(Clustering)是把整個數據庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數據盡量相似。聚類與分類不同:分類之前已經知道要把數據分成哪幾類,每個類的性質是什么;聚類則恰恰相反。
(4)演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發展趨勢、社會經濟發展趨勢進行房地產消費趨向的分析。
(5)描述和可視化(Description and Visualization),對數據進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區域的形象化描述。
2.數據挖掘的市場研究價值
數據挖掘技術在商業上實際應用十分豐富。應用數據挖掘技術,可以幫助房地產行業找出有價值的信息,十分有助于企業發現商機、制定開發計劃與營銷策略。對于房地產市場研究,數據挖掘可以應用于宏觀經濟形勢研究、市場發展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:
(1)宏觀經濟形勢研究——1)房地產周期時序分析中的相似搜索:可找出已有房地產周期數據庫中與給定查詢序列最接近的數據序列。比較識別兩個相似時間段間數據系列的主要差異,對房地產市場的宏觀分析很有參考價值。2)宏觀經濟形勢研究——房地產周期一般性因素關聯分析:一般而言,房地產周期是影響不動產收益的一系列因素組成的總體概念。各因素均會對總體房地產周期起決定作用。關聯分析方法可用于幫助發現各因素和房地產周期間的交叉與聯系。
(2)市場發展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團購買房地產比重的擬合與分析;3)對房地產銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發展水平等動態的分析、總結和評價,及時獲得準確數據,輔助經營決策。
(3)樓盤供應研究——地理發展空間的多維分析:綜合人口住房條件及分布、土地利用現狀及政府規劃、交通現狀分布信息,通過聚集及層次化描述,發掘區域內需建立的高檔別墅、高、中、低檔公寓的數量及各自的地理位置和發展計劃。
(4)客戶研究——客戶信息的多維關聯和序列模式分析:關聯分析可在客戶信息中發現客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。
目前,專業市場研究公司對房地產行業的調研主要集中在客戶需求分析方面,并積累了一定的經驗,因此,本文主要探討房地產客戶信息的數據挖掘。
3.數據挖掘在房地產客戶研究中有著廣泛的應用
房地產行業的客戶信息有許多特點,如下圖所示,一方面房地產行業面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。
對于復雜、多樣而且擅變的客戶信息,房地產行業客戶信息的數據挖掘有助于識別客戶購買行為,發現客戶購買模式和趨勢。從而,幫助房地產企業改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業成本。根據已有的數據挖掘經驗,數據挖掘在房地產行業的應用可以歸納成以下幾個方面:
4.明確商業目標
三、如何在房地產行業應用數據挖掘技術
應用數據挖掘的首要任務就是明確需要達到什么樣的商業目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測數據挖掘效果,判斷建立的模型的有效性。例如,下列目標是大而空的目標:獲得客戶行為的了解;在數據中發現有用的模型;發現一些有意思得東西。而另外一些目標有較強操作性:發現哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。
5.數據準備
基于數據挖掘的商業目標,提取所需要的數據。為了保證數據的質量,除了對數據進行必要地檢查和修正外,還需要考慮不同源之間數據的一致性問題。
如果數據集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當的減少輸入的字段。常用的方法包括:“描述型數據挖掘”、連結分析等。
很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數據。因此,在數據準備階段需考慮是否創建一些新的變量。
處理缺失數據也是數據準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。
6.建立模型
建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發對數據的理解并加以修改,甚至改變最初對問題的定義。
一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數據的預處理工作。例如,神經網絡需要做數據轉換,有些數據挖掘工具可能對輸入數據的格式有特定的限制等。
接下來是建立模型的工作。對于通過數據挖掘建立的模型需要有一定的數據來測試和驗證。對于預測性任務,需通過反復的測試、驗證、訓練,才能不斷提高模型的準確率。
大部分數據挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經網絡既可以用于建立分類樹,也可建立回歸樹。
7.輸出結果的評價和解釋
模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數據的不同發生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。
直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意后再向大范圍推廣。
8.實施
模型在建立并經驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數據庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。
在應用模型之后,還要不斷監控模型的效果。即使模型的運用很成功,也不能放棄監控。因為事物在不斷發展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。
四、應用舉例:基于客戶分類的關聯分析
1.商業目標
為了更詳盡地了解客戶的消費決策,本案例設計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結果可以被用于預測性分析,例如預測客戶最傾向于做出哪種購買行為。2.數據準備
本案例中采用某一時點上的房地產消費者需求抽樣調查,取出描述消費者個人屬性和消費特點的字段。
3.建立模型
(1)對數據進行分類
本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。
案例得到的抽樣數據顯示,盡管地理位置是影響一個房地產項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關注程度為分類標準,構建了一個簡單的決策樹。決策樹中根據購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關型五種類型。下表是應用決策樹得到的客戶分類結果。從各客戶群評分的均值和標準差可以看出,各客戶群具有較好的組內相似性和組間差異性,說明所構建的決策樹的分類結果比較理想,可用于進一步的分析。
(2)關聯分析運用關聯分析的目的是尋找數據庫中值的相關性。本例采用基于興趣度的關聯規則挖掘算法,挖掘每類客戶不同屬性間的相關性。經過挖掘,發現一些值得深入探討的關聯,見下表:
注:a)支持率反映了關聯是否是普遍存在的規律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關聯規則描述。
b)可信度反映了關聯規則前提成立的條件下結果成例的概率。本例中,可信度=15%可以解釋為,對應的客戶群中有15個人符合關聯規則的描述。
c)興趣度反映了關聯規則中元素的關系的密切程度。興趣度越大于1說明該規則中的元素的關系越密切,該規則的實際利用價值越大。
d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領域專家設定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。
上表中列出的關聯規則均有較高的支持率、可信度和興趣度。為了更加準確地挖掘關聯規則。對挖掘出的關聯規則更換因果關系,形成新的關聯規則與之進行對比。如下例:
關聯規則A1:地理位置無關型客戶=≥重視物業管理
支持率=9.7% 可信度=30.3% 興趣度=2.4與
關聯規則B1:重視物業管理 =≥地理位置無關型客戶
支持率=9.7% 可信度=76.9% 興趣度=2.4
對比兩個關聯規則將發現,“重視物業管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業管理”的可能性(30.3%)。說明關聯規則B1:重視物業管理=≥地理位置無關型客戶是一條更有意義的關聯規則。
其他被發掘的關聯也可以通過類似的比較,進行深一步的挖掘。在此不再全部做出詳細分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業經驗進行統計分析,往往會因為分析人員的主觀性或者數據量太大難以實施而存在信息提取的局限性。而通過數據挖掘得到的信息,一方面能彌補直接應用統計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業背景知識;另一方面可以通過反復的驗證、機器學習建立模型,直接成為分析人員的分析、預測的工具。
需要說明:
a)本案例的目的在于說明數據挖掘算法的應用價值,得到的結果僅供參考,并不作為定論,而且數據挖掘的結果需要由行業內的商業分析人員判斷:是否真的具有意義,是否有進一步分析、探討的價值。也就是說數據挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業內商業分析人員的分析工作。
b)案例中的數據挖掘作為方法應用的探討,如要生成一個可操作的模型工具還需足夠的數據集支持進行測試、驗證、訓練才能不斷提高模型的準確率。
c)本案例中解決問題的方法不是唯一的,可能應用其他的分類手段、分類標準能得到更好的結果。具體方法的應用要取決于實施人員的建模能力、行業經驗。也就是說,數據挖掘對人員有較高的要求。數據挖掘的人員不僅要有良好的統計概念、建模能力,還要懂得基本的商業和行業概念。
五、房地產行業數據挖掘的應用前景
隨著IT/Internet等新技術發展,市場研究在房地產行業的應用已經不再局限于數據采集和簡單的歸納、數據分析。更高的決策服務是建立在更大量的“數據——信息——知識”的基礎上的,因此數據挖掘、商業智能等概念與技術的引入促進了數據挖掘在房地產行業的應用。與此同時,隨著房地產企業數據挖掘應用的深入,數據、數據挖掘的任務和數據挖掘方法的多樣性將給數據挖掘提出了許多挑戰性的課題。例如:
1、應用地理信息系統(GIS)尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互。
2、web挖掘:由于web上存在大量信息,隨著web的發展,有關web內容挖掘、web日志挖掘等網絡上的數據挖掘將成為數據挖掘中一個最為重要和繁榮的應用領域。房地產公司的企業形象宣傳、營銷、客戶維護等工作都將離不開網絡,也必然將需要web挖掘數據支持。
第五篇:網對網和Web數據挖掘在搜索引擎中的運用論文
摘 要:當今網絡信息技術日益發展,傳統意義上的搜索引擎更加難以滿足廣大用戶日益增長的信息檢索需求。在這種趨勢下,智能技術在搜索引擎中的應用顯得越來越重要。只有將智能技術引進搜索引擎,才能提高用戶的工作效率,滿足人們日益增長的客觀需求。主要介紹了如今搜索引擎的幾大分類,傳統搜索引擎需要改進的不足以及兩大智能技術在搜索引擎中的應用。在智能技術將會更加智能更加發達的未來,搜索引擎也將不斷地更新和發展,為人們提供更加高效的搜索體驗。
關鍵詞:智能技術;搜索引擎;網對網技術;數據挖掘。
搜索引擎是根據一定的策略,運用特定的計算機程序來搜索互聯網上的信息,在對信息進行組織和處理后,將處理后的結果顯示給用戶,是為用戶提供檢索服務的系統。而智能技術在搜索引擎中的實際應用也越來越廣泛,不斷有新興的智能技術,搜索引擎也不斷地結合這些智能技術來進行自身的變革和發展。這是一個漸進的過程。本文將詳細介紹 2 種智能技術在搜索引擎中的應用。
1.搜索引擎的分類。
搜索引擎可分為以下 3 類:①全文搜索引擎。全文搜索引擎是最標準的搜索引擎,國外的主要代表是 Google,而國內的主要代表則是百度。全文搜索引擎的主要原理是在互聯網中檢索與所查目標相匹配的內容,繼而建立數據庫,按序排列并且將其展示給用戶。②目錄搜索引擎。從本質來說,目錄搜索引擎其實不能算是真正的搜索引擎。只是將網站鏈接目錄分類,用戶并不需要輸入關鍵字,根據目錄就完全可以找到想要的信息。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用戶的搜索請求后,可以在各個搜索引擎上同時搜索,隨后將結果顯示給用戶。這一種搜索引擎的國內代表是搜星搜索引擎。
2.傳統搜索引擎相比網絡信息檢索的缺點。
傳統搜索引擎作為用戶在互聯網進行信息檢索的一個重要途徑,給廣大用戶提供了相當大的便利,隨著互聯網的迅速發展,用戶對搜索引擎又提出了搜索速度更快、搜索效率更高等諸多要求。正是用戶的這些需求刺激著搜索引擎的快速發展。傳統搜索引擎越來越滿足不了用戶的需求,主要存在以下幾點不足:①搜索引擎從互聯網搜索的各種網頁水準不一,存在著根本沒用或者暫時性的網頁。這嚴重加大了用戶檢索信息的困難程度,并且嚴重影響了檢索速度。②主流搜索引擎大多采用關鍵詞來檢索,由于用戶水平的差異,極少數可以總結出關鍵詞或關鍵詞組,以至于用戶搜索不到想要的內容,從而加大了檢索難度。③每個搜索引擎覆蓋的范圍雖然不小,但與龐大的互聯網相比,簡直是九牛一毛。④檢索的結果不準確、不唯一,搜索結果為零或者為數萬的情況時有發生。⑤不能智能搜索,難以滿足用戶深層次的需求。
3.智能技術的運用。
由于傳統引擎的各種缺點,用戶越來越渴望更好用、更便捷的搜索方式出現。在這種刺激下,智能技術在搜索引擎中的應用大量出現。這使得搜索引擎需具有一定的智能化和理解能力。當前主要有以下兩大智能技術。
3.1 網對網技術。
顧名思義,“網對網技術”就是網絡和網絡對應起來的意思。這其中又要提到兩個概念了,是兩個單詞。一個單詞我們都相當熟悉了--Internet.我們常說的互聯網,就是這個單詞。而在這里,這個單詞指的是一個信息網絡,也就是我們所說的網絡中的信息網。我們想要搜索什么東西時,將它輸入搜索引擎中,引擎就會在這個網絡庫中查找,找到相關信息,然后呈現在我們面前。而另一個詞可能就有一些陌生了--Innernet.表面上看起來與 Internet 很像,英文詞典中并沒有這個詞,我們在這里叫它“內聯網”.與看起來更像數據庫的 Internet 比起來,內聯網更像是人類大腦的一個信息網絡。這里面不僅僅有我們生活和工作中所用到的各種各樣的信息,更重要的是,信息之間繁雜又緊密的聯系。就像我們在生活中和他人交流,提到“小伙伴”這個詞,我們會想到其他與之有聯系的詞匯,比如“朋友”“同學”等。同樣的,當提到“師父”,我們的大腦也會迅速聯想到“師門”“師生”這樣的相關詞匯。我們所說的內聯網,它所著重的,也是信息與信息之間這樣息息相關的聯系。Internet 和 Innernet都是知識的網絡,互聯網時代的信息社會發展日新月異,因此無論是哪個網絡,其內的信息都是不斷變化著的。人們將這個技術運用在搜索引擎中,大大提高了搜索引擎的實用性。作為內聯網的 Innernet 和 Internet 聯結起來,運用信息之間存在的各種各樣的聯系,將用戶輸入搜索引擎中,將復雜的聯系正確分割開,然后各自拓展出一些對人們而言有用的信息,將 Internet 中龐大、雜亂的信息進行有序化的篩選和整理,最終將信息呈現在人們的眼前。這大大提高了搜索引擎的可操作性,縮短了人們不斷刪改語句來配合 Internet 的時間,自然也就提高了用戶的工作效率。
3.2 Web 數據挖掘技術。
數據挖掘作為一門交叉學科,其原理比較復雜,可以從龐大的數據中將更有用、更有新意的數據挖掘出來,而 Web 挖掘,便是將數據挖掘和 Web 發展聯系起來。Web 數據挖掘有 3 種不同的挖掘形式,即內容挖掘、結構挖掘和使用記錄的挖掘。
3.2.1 內容挖掘。
內容挖掘指的是從 Web 文檔中或是描述中挖掘,在網頁中進行數據挖掘,其中包括文本、超鏈接、圖像和視頻等,而半結構化的數據和無結構的文本便是主要的挖掘對象。
3.2.2 結構挖掘。
Web 結構挖掘則是通過網頁中的超鏈接,發現其中信息之間的結構及其緊密或稀疏的聯系。在平時上網時,我們只能看到一個個的網頁,打開瀏覽或者關閉。但是在這些頁面的背后,其實隱藏著無數個結構鏈接。Web 數據挖掘就能夠通過這些結構上的鏈接,發現頁面與頁面、數據與數據之間的聯系,隨后對它們分類,以便為用戶提供含有相似信息的更多頁面,幫助用戶完善自己想要在搜索引擎中得到的信息。
3.2.3 使用記錄的挖掘。
與前兩者相比,Web 使用記錄的挖掘讓我們感覺更加熟悉,至少“使用記錄”4 個字是我們上網過程中能夠看到的。當我們點擊一下搜索引擎的輸入框想要輸入文本時,搜索引擎會自動下拉出我們前幾次使用時所查詢的內容,以便我們重復查看相似內容的信息。搜索引擎有時也會為我們推薦一些內容的信息。這些信息也會是我們所感興趣的一些內容,是搜索引擎結合了我們之前的使用記錄,為我們提供感興趣的相類似的內容。這些都是 Web 使用記錄挖掘在搜索引擎中的實用例子,但并不是全部。搜索引擎會從用戶的訪問痕跡中挖掘出很多有意義的數據,包括數據端、服務器端和代理端的數據。而其獲得這些數據的途徑又分為 KDD 和專業化追蹤。這些方法和深度的挖掘,使搜索引擎更加“智能”地了解用戶的興趣和需要。
4.總結。
搜索引擎是我們工作、學習和生活中必不可少的實用性技術,正如一個調查中所顯示的,85%的人都是通過搜索引擎獲取到他們所需要的信息和所喜愛的網站,可見搜索引擎的重要性。隨著智能技術的不斷更新,人們的生活變得越來越智能,對搜索引擎的要求也會隨之越來越高,因此不斷利用新的技術完善和提高搜索引擎的智能性,是用戶的選擇,也是時代的選擇,是搜索引擎在現在和未來的發展中必然的趨勢,且將一直持續下去。
參考文獻:
[1]陳勇躍,張玉峰。智能技術在搜索引擎中的應用[J].情報雜志,2004(02):2-3,6.[2]楊占華,楊燕。數據挖掘在智能搜索引擎中的應用[J].微計算機信息,2006(12):244-246.[3]朱素媛,馬溪俊,梁昌勇。人工智能技術在搜索引擎中的應用[J].合肥工業大學學報(自然科學版),2003(S1):657-661.