第一篇:基于屬性重要度約簡算法在數(shù)據(jù)挖掘中的應(yīng)用研究論文
摘 要:屬性約簡是粗糙集理論研究的核心內(nèi)容之一,本文通過對屬性重要度的計算,以核為基礎(chǔ)計算條件屬性集中除核以外其他屬性的重要性來確定最小的約簡,最后通過實例分析驗證了算法的有效性與可行性。
關(guān)鍵詞:數(shù)據(jù)挖掘 屬性約簡 重要度
數(shù)據(jù)挖掘是從海量的且不斷動態(tài)變化的數(shù)據(jù)中,借助有效的方法挖掘出潛在、有價值的知識過程。而粗糙集理論它是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能在保持分類能力不變的前提下,通過知識約簡從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,是由波蘭科學(xué)家Pawlak在1982年提出的。而屬性約簡是粗糙集理論研究的核心內(nèi)容之一,它能保證在分類能力不變的情況下,消除重復(fù)、冗余的屬性和屬性值,減少數(shù)據(jù)挖掘要處理的信息量,提高數(shù)據(jù)挖掘的效率。本文提出了通過計算單個屬性的重要性,以重要性大于零的屬性為核,來選取其它屬性加入核中形成新的集合RED,直至剩下的所有屬性的重要性為零,得到的集合REDn即為屬性約簡。粗糙集的基本理論[1-2]
定義1設(shè) 是一個信息系統(tǒng),其中 是對象的非空有限集合,即;是屬性的非空有限集合;,是屬性 的值域;是一個信息函數(shù),即每個對象在每個屬性上對應(yīng)的信息值。若,其中 為非空有限條件屬性集合,為非空有限決策屬性集合,且,則稱信息系統(tǒng)為決策表。
定義2對決策表,,考慮單決策屬性的情況,即,則的分辨矩陣是一個 矩陣,其中的元素定義如下:
定義3對分辨矩陣中每個,用布爾函數(shù) 來表示,若,則決策表的分辨函數(shù) 可定義為:。基于粗糙集的數(shù)據(jù)挖掘的屬性約簡算法[3-4]
2.1 算法分析
第一步:求核。通過求條件屬性C中的每個屬性a對在整個條件屬性集C的重要性SigC(x)來確定屬性核CORE(x),重要性SigC(x)>0的屬性為核屬性。
第二步:通過向?qū)傩院薈ORE(x)中依次加入重要性大的屬性來確定屬性集x的最小約簡,詳細(xì)步驟如下:(1)把a加入到屬性集R 中,計算重要性,選擇重要性最大的屬性;(2)如果兩個屬性有相同的重要性,取離散值小的屬性。
2.2 算法復(fù)雜度
通過算法的分析,在對決策表進(jìn)行劃分的時間復(fù)雜度為O(n2)。而計算條件屬性的重要性也是滿足劃分的線性關(guān)系,因此所求屬性核的時間復(fù)雜度為O(n2),依次添加次重要度的屬性也沒有增加額外的開銷,因此整個時間復(fù)雜度還是O(n2)。
2.3 實例及分析
為了進(jìn)一步驗證算法的可行性,下面以表1中的決策表為例進(jìn)行分析說明,其中對象集,條件屬性集,決策屬性。
以上對計算出的實驗數(shù)據(jù)的重要性進(jìn)行統(tǒng)計得出信息系統(tǒng)的兩個約簡為{c1,c4}和{c2,c4}。結(jié)語
本文針對屬性約簡算法中的屬性重要度的計算來確定核,適合對海量數(shù)據(jù)的挖掘,不僅節(jié)省了存儲空間,而且在時間復(fù)雜度開銷少,通過實驗分析驗證了算法的可行性與有效性,為決策表的屬性約簡提供了一條高效的途徑。
參考文獻(xiàn):
[1]張文修,吳偉志.粗糙集理論與方法[M].北京:科學(xué)出版社,2001:18-19
[2]周獻(xiàn)中,黃兵,李華雄,等.不完備信息系統(tǒng)知識獲取的粗糙集理論與方法[M].南京:南京大學(xué)出版社,2010:10-11
[3]饒泓,夏葉娟,李娒竹.基于分辨矩陣和屬性重要度的規(guī)則提取算法[J].計算機工程與應(yīng)用,2008,44(3):163-165
[4]黃國順,劉云生.一種改進(jìn)的決策表屬性重要性及其快速約簡算法[J].計算機工程與應(yīng)用,2007,43(28):173-176
第二篇:數(shù)據(jù)挖掘在圖書館用戶資源管理中的應(yīng)用研究_周倩
數(shù)據(jù)挖掘在圖書館用戶資源管理中的應(yīng)用研究
周 倩
(中科院文獻(xiàn)情報中心中科院研究生院,北京,100080)中42%的圖書館采用了數(shù)據(jù)挖掘技術(shù),而剩余的 58%的還沒有采用數(shù)據(jù)挖掘技術(shù)的圖書館中有 98%的表示它們將在不久的未來采用數(shù)據(jù)挖掘技 術(shù)。此外,調(diào)查還顯示,目前圖書館采用數(shù)據(jù)挖掘技 術(shù)的主要模式是基于用戶數(shù)據(jù)與基于用戶行為的數(shù) 據(jù)挖掘,各種數(shù)據(jù)挖掘軟件或工具的發(fā)展與成熟為 圖書館利用數(shù)據(jù)挖掘技術(shù)提供了便利的條件[8]。與國外圖書館相比,數(shù)據(jù)挖掘技術(shù)目前在我國 圖書館中并沒有大規(guī)模地使用,只有為數(shù)不多的圖 書館采用了此項技術(shù)。但國內(nèi)圖書館界已普遍認(rèn)識 到,數(shù)據(jù)挖掘技術(shù)是圖書館現(xiàn)代化發(fā)展的關(guān)鍵技術(shù), 將對圖書館信息資源建設(shè)和個性化、知識化服務(wù)的 發(fā)展起到至關(guān)重要的作用。基于數(shù)據(jù)挖掘的圖書館用戶資源管理
從以上分析可看出,用戶資源管理是圖書館應(yīng)用 數(shù)據(jù)挖掘技術(shù)的主要領(lǐng)域之一,基于數(shù)據(jù)挖掘的圖書 館用戶資源管理主要體現(xiàn)兩層含義:一是圖書館利用 數(shù)據(jù)挖掘技術(shù)提高自身用戶資源管理的水平,實現(xiàn)分 析型用戶資源管理模式;二是圖書館以數(shù)據(jù)挖掘的需 求為牽引,組織好用戶資源管理的各項工作,從最初 用戶數(shù)據(jù)獲取開始就要以后期順利地實現(xiàn)數(shù)據(jù)挖掘 為目標(biāo),分析、設(shè)置好工作標(biāo)準(zhǔn)與內(nèi)容意義。3.1 用戶數(shù)據(jù)搜集與存儲
用戶資源管理的第一步工作是搜集用戶數(shù)據(jù)。要實現(xiàn)對用戶數(shù)據(jù)的有效挖掘的基本條件是要將搜 集到的數(shù)據(jù)以一致的模式存儲,建立用戶數(shù)據(jù)倉庫。因此,可以說用戶數(shù)據(jù)倉庫建設(shè)是圖書館用戶資源 管理的基礎(chǔ)。
(1)搜集用戶數(shù)據(jù)。用戶數(shù)據(jù)按數(shù)據(jù)類型可大
致分為用戶描述類數(shù)據(jù)、用戶需求類數(shù)據(jù)、用戶行為 類數(shù)據(jù)和用戶反饋類數(shù)據(jù)四個類。目前,隨著數(shù)字 圖書館的深入發(fā)展,圖書館獲取用戶數(shù)據(jù)的技術(shù)與 渠道不斷拓寬,既可以通過傳統(tǒng)方式獲取,也可以在 數(shù)字圖書館服務(wù)過程中獲取。
(2)構(gòu)建用戶數(shù)據(jù)倉庫。數(shù)據(jù)挖掘在集成、一
致、經(jīng)過清理的數(shù)據(jù)上才能更好地實現(xiàn),因此必須對 搜集到的圖書館用戶數(shù)據(jù),進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)變 換、數(shù)據(jù)集成和數(shù)據(jù)裝入等必要的數(shù)據(jù)處理過程,建 立一個整合的、結(jié)構(gòu)化的用戶數(shù)據(jù)倉庫,并及時更 新。圖書館通過多個渠道獲取的用戶數(shù)據(jù)中既有結(jié) 構(gòu)化的、也有非結(jié)構(gòu)化的。結(jié)構(gòu)化數(shù)據(jù)如用戶借閱 資料的數(shù)量、Web訪問日志等數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù) 如用戶反饋信息、用戶需求信息等。目前數(shù)據(jù)挖掘 的對象主要是結(jié)構(gòu)化數(shù)據(jù),因此,應(yīng)盡可能采用多種 方法對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)化為結(jié)構(gòu) 化數(shù)據(jù)。
3.2 用戶多維特征分析和群體分類
(1)用戶多維特征分析。針對數(shù)據(jù)倉庫中的圖
書館用戶數(shù)據(jù),采用簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián) 等關(guān)聯(lián)分析與序列規(guī)則等數(shù)據(jù)分析與挖掘方法,對 圖書館用戶特征進(jìn)行分析,挖掘用戶的隱性信息需 求,獲得對管理用戶與圖書館交互活動所必需的關(guān) 鍵性特征,并預(yù)測用戶未來的信息行為。圖書館用 戶特征主要由用戶的知識結(jié)構(gòu)特征、用戶的信息需 求特征和用戶的信息行為特征組成。知識結(jié)構(gòu)特征 說明了用戶目前對其專業(yè)領(lǐng)域或感興趣的專業(yè)領(lǐng)域 的知識掌握情況;用戶的信息需求特征表明了用戶 信息需求的專業(yè)范圍、載體、類型、語種以及用戶需 求的現(xiàn)有滿足程度等;用戶的信息行為特征反映了 用戶使用信息的習(xí)慣和模式,以及訪問信息的規(guī)律、特點和趨勢等。
(2)用戶群體聚類分類。對于圖書館用戶特征
進(jìn)行多維分析的主要目標(biāo),并不是僅對單個用戶在 圖書館內(nèi)的信息行為進(jìn)行分析,而是希望對具有相 似特征的用戶建立模型,進(jìn)行圖書館用戶的有效分 類與聚類,發(fā)現(xiàn)各種虛擬用戶社區(qū),為針對不同類型 的用戶群提供不同的個性化服務(wù)方案[9]。對數(shù)據(jù)集 合的分類是數(shù)據(jù)挖掘技術(shù)的主要功能之一。圖書館 用戶分類是找出一組能夠描述用戶群體典型特征的 模型(或函數(shù)),以便能夠分類識別未知圖書館用戶 的歸屬或類別或預(yù)測未知圖書館用戶實例的歸屬類 別。分類挖掘所獲得的模型可以采用多種挖掘方式 獲得,按照難易程度分為分類規(guī)則(IF-THEN)、數(shù) 學(xué)公式(Mathematical formulae)、決策樹(Deci-siontrees)和神經(jīng)網(wǎng)絡(luò)等方法。圖書館用戶聚類分 析是把一組圖書館用戶按照相似性和差異性分為幾 個類別,其目的是使得屬于同一類別的用戶間的相 似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可 能小。每一個聚類分析所獲得的圖書館用戶組可以 看成是一個同類別歸屬的用戶對象集合,然后對這 些同類別數(shù)據(jù)集通過分類,獲得相應(yīng)的分類預(yù)測模 型(規(guī)則)。由此,通過反復(fù)不斷地對所獲得的聚類 組進(jìn)行聚類分析,可獲得初始圖書館用戶數(shù)據(jù)集合 的一個層次結(jié)構(gòu)模型。
3.3 面向用戶生命周期的數(shù)據(jù)挖掘
圖書館用戶生命周期主要由三個階段組成:用
戶的獲取、用戶的保持和用戶的流失。圖書館用戶 資源管理的主要目標(biāo)是要最大限度地延長用戶的生 89 周 倩:數(shù)據(jù)挖掘在圖書館用戶資源管理中的應(yīng)用研究
Zhou Qian:A Study on the Application of Data Mining in the User Resources Management of Libraries 能真正以用戶使用的效益方式體現(xiàn)出來[2]。(2)用戶資源管理是圖書館個性化服務(wù)的重要基 礎(chǔ)。圖書館個性化信息服務(wù)的實質(zhì)就是一種以用戶 需求為中心的服務(wù)方式。一個圖書館的個性化服務(wù) 的通常步驟為:一是收集用戶的各種信息;二是分析 用戶數(shù)據(jù),創(chuàng)建符合用戶特性的訪問模式;三是結(jié)合 用戶特性,向用戶提供符合其特殊需求的個性化服 務(wù)[3]。圖書館用戶資源管理的本質(zhì)與目標(biāo)是對用戶 信息及信息行為經(jīng)過深入的研究與分析,在滿足用戶 直接信息需求的基礎(chǔ)上,發(fā)掘用戶的潛在需求,使用 戶得到延伸的服務(wù)收益,以此給予用戶強烈的個性化 服務(wù)感受和“無縫式體驗”,提高滿意度,在實現(xiàn)用戶 價值最大化前提下實現(xiàn)用戶和圖書館雙贏。(3)用戶資源管理是圖書館知識管理的主要途
徑。圖書館實施知識管理的主要目的就是把最恰當(dāng) 的知識在最恰當(dāng)?shù)臅r候傳遞給最恰當(dāng)?shù)挠脩?這正 是與用戶資源管理的最終目標(biāo)相一致的。圖書館用 戶資源管理中含有大量可供共享的信息,包括用戶 基本信息、需求信息、服務(wù)活動信息、服務(wù)效果信息 以及在整個用戶生命周期中同圖書館交互活動的信 息。用戶的信息就像原材料一樣,被進(jìn)行系統(tǒng)整理、分析后可以在圖書館內(nèi)部形成共享,從用戶信息變 為用戶知識。“用戶”、“知識”和“管理”處在一個封 閉的循環(huán)系統(tǒng)中,圖書館運用這個循環(huán)體系中的用 戶知識,從與用戶的交互活動中實現(xiàn)其社會價值。1.3 圖書館用戶資源管理現(xiàn)狀分析
用戶資源管理在實際運作中可以大致分為兩個 層次。一是描述型用戶資源管理。它更多關(guān)注用戶 信息的組織和管理的簡單化,包括用戶與圖書館交 流渠道的集成,用戶信息的歸檔與簡單化的定量統(tǒng) 計。二是分析型用戶資源管理。這種管理方式強調(diào) 對用戶數(shù)據(jù)進(jìn)行規(guī)范化存儲、提取、處理、解釋,產(chǎn)生 相關(guān)用戶知識報告。可以說,分析型的用戶資源管 理通過對用戶數(shù)據(jù)的分析,真實反映用戶的行為特 征和屬性,并據(jù)此進(jìn)行各種推理和分析,為圖書館決 策和服務(wù)行為提供客觀依據(jù)。就目前而言,國內(nèi)大 多數(shù)圖書館用戶資源管理仍屬于描述型用戶資源管 理,還不能大范圍地實現(xiàn)對用戶屬性特征和信息行 為特征的整理和分析,不能廣泛地從用戶信息中發(fā) 現(xiàn)能夠反映其信息與服務(wù)需求特質(zhì)的模式或模型并 進(jìn)行相關(guān)用戶的規(guī)模化分類與聚類。而數(shù)據(jù)挖掘技 術(shù)的發(fā)展與在圖書館的應(yīng)用則為圖書館解決上述問 題,突破描述型用戶資源管理的局限性,開展分析型 用戶資源管理提供了有力的支持和保障。2 圖書館研究與應(yīng)用數(shù)據(jù)挖掘技術(shù)概況
數(shù)據(jù)挖掘(Data Mining)是從大量、不完全、有噪
聲、模糊、隨機的數(shù)據(jù)中,抽取出隱含在其中的、人們 事先不知道但又是潛在的、有價值的知識、模型或規(guī) 則的過程,是一類深層次的數(shù)據(jù)分析方法。它根據(jù)數(shù) 據(jù)的微觀特征,發(fā)現(xiàn)其表征的、帶有普遍性的、較高層 次概念的知識,是信息優(yōu)勢成為知識優(yōu)勢的基礎(chǔ)工 程。數(shù)據(jù)挖掘是一門交叉學(xué)科,包括機器學(xué)習(xí)、數(shù)理
統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、模糊數(shù)學(xué) 等相關(guān)技術(shù)。數(shù)據(jù)挖掘技術(shù)包括三個主要部分:算法 和技術(shù)、數(shù)據(jù)和建模能力;按照功能分為兩大類:預(yù)測 型(Predictive)模式和描述型(Descriptive)模式[4]。自20世紀(jì)90年代后期,圖書館開始高度關(guān)注 并研究數(shù)據(jù)挖掘技術(shù),并致力于將其引入到圖書館 的現(xiàn)代化建設(shè)中,有不少圖書館學(xué)專家提出了面向 圖書館的數(shù)據(jù)挖掘技術(shù)應(yīng)用理論與方法。例如: May Chau博士提出了幾種學(xué)術(shù)型圖書館與數(shù) 據(jù)挖掘的相關(guān)性理論模型,并且開發(fā)了圖書館網(wǎng)上 數(shù)據(jù)挖掘系統(tǒng),幫助用戶查找信息[5]。Kyle Baner-jee先生研究了數(shù)據(jù)挖掘技術(shù)幫助圖書館的不同方 式。在1998年,他提出,全文本、動態(tài)變化的數(shù)據(jù)庫 更適于采用數(shù)據(jù)挖掘技術(shù)[5]。2002年,Nicholson 和Stanton就圖書館中的數(shù)據(jù)挖掘過程提出了一個 專業(yè)術(shù)語“Bibliomining”(書目挖掘),指出書目挖掘 是在圖書館中,將數(shù)據(jù)挖掘技術(shù)、書目計量方法、統(tǒng) 計學(xué)理論與報告工具有機結(jié)合在一起,從基于行為 的信息與數(shù)據(jù)中獲取隱含的模式[5]。1996年,ALA 的《Library Administration and Management》期刊 出版了一期關(guān)于圖書館數(shù)據(jù)挖掘的特刊,當(dāng)時在文 章中提到的數(shù)據(jù)主要來自圖書館自動化系統(tǒng),后來, 隨著數(shù)字圖書館的發(fā)展使得可以用于數(shù)據(jù)挖掘的數(shù) 據(jù)大幅度提高。鑒于此種情況,《Library Adminis-tration and Management》于2003年再次出版一期 以數(shù)字圖書館數(shù)據(jù)挖掘技術(shù)為主題的特刊,并列舉 了一些圖書館利用數(shù)據(jù)挖掘技術(shù)的實際案例[6]。2005年6月,OCLC公布了三個新的研究計劃,其 中之一就是數(shù)據(jù)挖掘研究計劃,其主要目標(biāo)是通過 對WorldCat及其它數(shù)據(jù)源的挖掘,找到隱含的、有 用的信息,以此幫助圖書館管理者更好地做出館藏 建設(shè)與服務(wù)的決策[7]。
就圖書館利用數(shù)據(jù)挖掘技術(shù)的規(guī)模和應(yīng)用潛 力,研究圖書館聯(lián)盟(ARL)2003年曾做過一次調(diào) 查。ARL中的124個會員圖書館參加了此次調(diào)查, 其中有52%的圖書館反饋了調(diào)研表。調(diào)查顯示這 88 2006年第6期
圖書·情報·知識
[摘要] 用戶資源管理是現(xiàn)代圖書館資源管理的核心內(nèi)容,是圖書館實現(xiàn)個性化服務(wù)的重要基礎(chǔ)。
數(shù)據(jù)挖掘作為一種深層次的數(shù)據(jù)分析方法,可以從大量的數(shù)據(jù)中挖掘出反映用戶屬性特征和信息
行為特征的信息和規(guī)則,從而為圖書館用戶資源管理提供極大的幫助。基于數(shù)據(jù)挖掘的圖書館用
戶資源管理包括用戶數(shù)據(jù)搜集、用戶數(shù)據(jù)倉庫構(gòu)建、用戶多維特征分析和群體分類、面向用戶生命
周期的數(shù)據(jù)挖掘等主要內(nèi)容。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 圖書館 用戶資源管理 應(yīng)用 個性化服務(wù) 數(shù)據(jù)倉庫 [中圖分類號]G252 [文獻(xiàn)標(biāo)識碼]A [文章編號]1003-2797(2006)06-0087-04 [Abstract] The user resources management of libraries based on data mining should include the following methods:collecting user data,constructing user data warehouse,analyzing user char-acteristics and classifying group,data mining for the whole user life cycle and so on.[Key words] Data mining Library User resources management Application Personalized services Data warehouse 1 圖書館用戶資源管理
圖書館用戶是指利用圖書館信息資源及信息服 務(wù)的一切個體或群體。圖書館用戶資源是圖書館在 長期的信息服務(wù)過程中逐步形成的,是圖書館服務(wù) 能力在社會關(guān)系體系中的呈現(xiàn)。與圖書其它資源相 比,用戶資源有它特殊的性質(zhì),例如動態(tài)的伸縮性和 拓展性,對其它類型資源強烈的依附性。1.1 圖書館用戶資源管理的內(nèi)涵
在圖書館的發(fā)展歷程中,其資源的內(nèi)涵不斷拓 展,資源管理的內(nèi)容也不斷豐富。早期的圖書館資 源管理主要是指對有形的資產(chǎn)進(jìn)行管理,包括文獻(xiàn)
資源管理、設(shè)備資源管理、人力資源管理、經(jīng)費管理、服務(wù)場所管理等。其后圖書館資源概念擴展到無形 資產(chǎn),包括服務(wù)品牌、圖書館文化等。但這種管理的 概念也僅僅局限于圖書館內(nèi)部。在現(xiàn)代信息社會, 伴隨著數(shù)字圖書館的發(fā)展,圖書館將“用戶”這種外 部資源納入到自身的資源管理體系中,把用戶作為 圖書館的一種資源進(jìn)行有效的管理,并實現(xiàn)與圖書 館其它資源的整合。
從資源管理的理論層面上講,用戶資源管理是 對有使用價值的用戶資源,通過有效的管理與控制
[作者簡介] 周倩,女,1972年生,中國科學(xué)院文獻(xiàn)情報中 心及中科院研究生院在讀博士生,中國國防科技信息中心副 研究館員,發(fā)表論文20多篇。
程序,來實現(xiàn)圖書館某種服務(wù)效益的目標(biāo)活動。從 實際工作層面上講,用戶資源管理主要是指對用戶 和圖書館之間的交互活動進(jìn)行管理,具體包括用戶 信息管理、用戶服務(wù)活動管理、用戶后期支持管理。用戶信息管理的主要任務(wù)是系統(tǒng)地搜集、組織與存 儲用戶的相關(guān)信息,通過對用戶信息的統(tǒng)計和分析, 明確用戶信息需求和服務(wù)需求,劃分用戶群;用戶服 務(wù)活動管理則負(fù)責(zé)將對用戶在圖書館內(nèi)的信息行為 進(jìn)行管理,針對用戶個性化需求,制定出圖書館相應(yīng) 的信息資源建設(shè)和服務(wù)策略,實現(xiàn)與用戶服務(wù)活動 相關(guān)的所有信息的集成;用戶后期支持管理主要是 對用戶接受服務(wù)后的情況進(jìn)行跟蹤了解和分析,發(fā) 現(xiàn)問題,提出不斷修正和提高的方案[1]。1.2 用戶資源管理在圖書館中的重要地位(1)用戶資源管理是圖書館管理的核心。圖書
館管理主要包括三個方面:一是信息資源管理,即對 信息的搜集、加工、組織、開發(fā)利用等實施全壽命管 理;二是信息環(huán)境管理,主要包括信息技術(shù)管理、信 息政策管理、組織機構(gòu)管理、設(shè)施與經(jīng)費管理以及人 力資源管理;三是用戶資源管理。其中,用戶資源管 理是核心內(nèi)容,信息資源管理與信息環(huán)境管理必須 以用戶資源管理的要求和目標(biāo)開展工作,因為只有 這樣才能將“用戶”作為一種資源有效地貫穿于圖書 館管理工作的全過程中,圖書館管理的效果與價值 87 命周期,抑制用戶的流失。
(1)用戶的獲取。圖書館要在競爭日益激烈的
服務(wù)環(huán)境中生存和壯大就需要不斷獲得新的用戶, 維持老的用戶,而當(dāng)用戶數(shù)量不斷增長,用戶的細(xì)節(jié) 因素增多時,要為用戶提供更好的服務(wù)并贏得更多 的用戶只能依靠數(shù)據(jù)挖掘技術(shù)才能完成。利用數(shù)據(jù) 挖掘中的一些技術(shù)(如統(tǒng)計回歸、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò))揭示新用戶的行為習(xí)慣,生成預(yù)測模型和 建立評分模型,預(yù)測發(fā)現(xiàn)一些在不同情況下有相似 行為的新用戶,對潛在用戶進(jìn)行篩選,有效增加服務(wù) 推廣效應(yīng),把潛在的用戶名單和這些用戶感興趣的 資源與服務(wù)系統(tǒng)地結(jié)合起來,為每一個用戶提供主 動化、個性化服務(wù),使?jié)撛谟脩艮D(zhuǎn)化為正式用戶,以 不斷地獲取新用戶。
(2)用戶的保持與流失。用戶保持與圖書館服
務(wù)能力息息相關(guān)。圖書館用戶流失的主要原因之一 就是圖書館對用戶的關(guān)懷和服務(wù)不夠,因此保持原 有用戶的工作對于圖書館來說變得非常重要。數(shù)據(jù) 挖掘技術(shù)可以對用戶數(shù)據(jù)倉庫中的大量數(shù)據(jù)進(jìn)行分 析和處理,以識別、分析和評價用戶流失風(fēng)險,分析 出用戶為什么會流失?哪些因素會導(dǎo)致用戶的流 失?用戶流失風(fēng)險主要來自于何處?如何保留住圖 書館的高價值用戶?在用戶保持中,一般涉及3個 過程:首先,建立模型用來預(yù)測和識別潛在的流失用 戶;其次,通過數(shù)據(jù)挖掘識別潛在流失用戶中的圖書 館重要用戶;第三,利用聚類分析等方法對圖書館重 要用戶中的潛在流失者進(jìn)行分析挖掘,識別其行為 模式等,從而有針對性地采取相應(yīng)的服務(wù)措施,保留 住用戶[10]。幾個相關(guān)問題的思考
首先是數(shù)據(jù)挖掘精度的問題。當(dāng)前許多數(shù)據(jù)挖 掘系統(tǒng)或工具都是數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘,僅僅是在 數(shù)據(jù)內(nèi)容上產(chǎn)生規(guī)則,因此來源數(shù)據(jù)的準(zhǔn)確性對數(shù) 據(jù)挖掘精度將會產(chǎn)生很大的影響。此外,數(shù)據(jù)挖掘 不是萬能的,而只是一個工具,它只是幫助圖書館工 作人員更深入、更容易地分析數(shù)據(jù),它無法告訴你某 個用戶模型對你的圖書館的實際價值。而且數(shù)據(jù)挖 掘中得到的模型必須要在實踐中進(jìn)行驗證。將本體 理論與數(shù)據(jù)挖掘技術(shù)相結(jié)合是有效解決數(shù)據(jù)挖掘精 度問題的一種途徑,因為基于用戶本體的數(shù)據(jù)挖掘 將利用領(lǐng)域知識或背景知識,可在高層次上進(jìn)行數(shù) 據(jù)挖掘,產(chǎn)生高層次或多層次的規(guī)則,甚至是具有語 義意義的規(guī)則,同時可利用本體進(jìn)行數(shù)據(jù)預(yù)處理,提 高待挖掘數(shù)據(jù)的質(zhì)量[11]。
其次是用戶隱私保護(hù)問題。在構(gòu)建用戶數(shù)據(jù)倉
庫的前期,對于用戶數(shù)據(jù)進(jìn)行預(yù)處理階段要注意將顯 示用戶隱私的數(shù)據(jù)處理掉,例如對不愿透露自己IP 地址的用戶,如果日志記錄訪問時間為10:32/10-29-02,可以用102902-1032-A作為其IP地址代碼[12]。第三是數(shù)據(jù)挖掘系統(tǒng)嵌入圖書館其它應(yīng)用系統(tǒng) 的問題。目前數(shù)據(jù)挖掘技術(shù)正在不斷發(fā)展和成熟, 許多數(shù)據(jù)挖掘工具可以和圖書館相關(guān)應(yīng)用系統(tǒng)集 成,成為嵌入式的技術(shù)。參考文獻(xiàn) 周倩.構(gòu)建圖書館現(xiàn)代化CRM系統(tǒng).圖書情報工作, 2004(6)2 周倩.復(fù)合圖書館信息資源管理研究.圖書情報知識, 2003(5)3 馮是聰單松巍等.基于Web挖掘的個性化技術(shù)研究.Http://net.cs.pku.edu.cn/~webg/twpaper/fsch web personalize.pdf(2005-11-08)4 朱建平,張潤楚等.數(shù)據(jù)挖掘的發(fā)展及其特點.知識叢 林,2002(7)5 Scott Nicholson.Bibliomining for Automated Collection Development in a Digital Library Setting:Using Data Mining to Discover Web-Based Scholarly Research Works.Http://dlist.sir.arizona.edu/625/01/asisdiss.html(2005-10-26)6 Nicholson,Scott and Stanton,Jeffrey.Gaining Strategic Advantage through Bibliomining:Data Mining for Man-agement Decisions in Corporate,Special,Digital,and Traditional Libraries.Http://dlist.sir.arizona.edu/826/(2005-12-28)7 New OCLC Research projects:Curiouser,Data Mining, and WikiD(nee MetaWiki).Http://(2005-10-28)10楊中華.數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究.湖北 汽車工業(yè)學(xué)院學(xué)報,2004(1)11邢平平等.基于本體論的數(shù)據(jù)挖掘方法.計算機工程, 2001(5)12 Scott Nicholson.The Bibliomining Process:Data Ware-housing and Data Mining for Library Decision-Making(收稿日期:2006-04-10)
第三篇:數(shù)據(jù)挖掘在培訓(xùn)管理中的應(yīng)用論文
1、引言
對很多培養(yǎng)機構(gòu)而言,目前急需解決的問題主要有:如何根據(jù)不同成員需求設(shè)置合理的課程、如何通過教學(xué)方式提高成員學(xué)習(xí)積極性、如何提高成員培訓(xùn)效果、如何通過考核檢驗成員學(xué)習(xí)成果等,都是培養(yǎng)機構(gòu)發(fā)展過程中必須面對的問題。隨著我國信息化進(jìn)程的加快,一些培養(yǎng)機構(gòu)也開始進(jìn)行信息化建設(shè),通過信息系統(tǒng)對培訓(xùn)相關(guān)事宜進(jìn)行管理。但目前在針對培養(yǎng)機構(gòu)的信息系統(tǒng)中,所實現(xiàn)的功能和模塊是進(jìn)行簡單的查詢、統(tǒng)計。在了解培訓(xùn)評估效果時,目前的信息系統(tǒng)中,學(xué)員通過系統(tǒng)對不同課程的教師進(jìn)行打分,系統(tǒng)自對進(jìn)行匯總、統(tǒng)計,得出教師評價。但這種匯總、統(tǒng)計是最簡單的,對教師評價也缺乏全面性和深度。
2、數(shù)據(jù)挖掘在培訓(xùn)管理系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時代下,數(shù)據(jù)信息呈現(xiàn)出海量特點。如何從海量、不完全的信息中尋找到真正有用的信息,是大數(shù)據(jù)時代中重要的問題。由此便利用到數(shù)據(jù)挖掘,顧名思義,數(shù)據(jù)挖掘就是從眾多數(shù)據(jù)信息中尋找到有用、有價值的信息。大數(shù)據(jù)時代下,教育行業(yè)中,信息量也是海量的,要想提高教學(xué)質(zhì)量就需要運用數(shù)據(jù)挖掘找尋到有用的教育信息,并運用到實際教學(xué)中。信息系統(tǒng)通過一段實際應(yīng)用后,里面存儲了大量數(shù)據(jù),相應(yīng)的,學(xué)習(xí)管理系統(tǒng)也是如此,里面蘊含了大量數(shù)據(jù)信息。如在線課程等功能中藏有大量師生應(yīng)用過程中的數(shù)據(jù)資料。如圖1為數(shù)據(jù)挖掘在培訓(xùn)管理中的流程圖。
2.1初步探索
培訓(xùn)管理系統(tǒng)中一般具有數(shù)據(jù)統(tǒng)計功能,將相關(guān)事宜進(jìn)行統(tǒng)計。如網(wǎng)絡(luò)課程開展過程中,數(shù)據(jù)挖掘在培訓(xùn)管理系統(tǒng)中的應(yīng)用文/張宏亮在大數(shù)據(jù)時代,如何使用現(xiàn)有的數(shù)據(jù)對學(xué)員進(jìn)行培訓(xùn)管理,從而提高培訓(xùn)效率是當(dāng)前培訓(xùn)管理中所面臨的問題。本文分析了數(shù)據(jù)挖掘在培訓(xùn)管理中的應(yīng)用主要表現(xiàn)在初步探索、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘過程。其中數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘是培訓(xùn)系統(tǒng)的核心功能。
2.2數(shù)據(jù)預(yù)期處理
數(shù)據(jù)預(yù)處理時,原始數(shù)據(jù)庫會發(fā)生轉(zhuǎn)變,以適應(yīng)數(shù)據(jù)挖掘、數(shù)據(jù)挖掘算法等的要求。在處理結(jié)構(gòu)化的數(shù)據(jù)時,數(shù)據(jù)預(yù)處理需要完成兩項任務(wù),即消除數(shù)據(jù)缺陷現(xiàn)象的存在和為數(shù)據(jù)挖掘奠定良好基礎(chǔ)。數(shù)據(jù)處理是對現(xiàn)有的數(shù)據(jù)進(jìn)行前期處理,方便后期數(shù)據(jù)挖掘。如圖2為培訓(xùn)管理系統(tǒng)中數(shù)據(jù)預(yù)處理模塊。
2.3數(shù)據(jù)挖掘
WangJ開發(fā)了一個將數(shù)據(jù)挖掘技術(shù)與基于模擬的培訓(xùn)相結(jié)合的混合框架,以提高培訓(xùn)評估的有效性。以信仰為基礎(chǔ)的學(xué)習(xí)概念,用于從知識/技能水平和信心水平的兩個維度來評估學(xué)員的學(xué)習(xí)成果。數(shù)據(jù)挖掘技術(shù)用于分析受訓(xùn)人員的個人資料和基于模擬的培訓(xùn)產(chǎn)生的數(shù)據(jù),以評估學(xué)員的表現(xiàn)和學(xué)習(xí)行為。提出的方法論以臺灣基于模擬的步兵射擊訓(xùn)練的實例為例。結(jié)果表明,提出的方法可以準(zhǔn)確地評估學(xué)員的表現(xiàn)和學(xué)習(xí)行為,并且可以發(fā)現(xiàn)潛在的知識來提高學(xué)員的學(xué)習(xí)成果。BodeaCN使用數(shù)據(jù)挖掘技術(shù)進(jìn)行了培訓(xùn)學(xué)習(xí)管理,用于分析參加在線兩年制碩士學(xué)位課程項目管理的學(xué)生的表現(xiàn)。系統(tǒng)數(shù)據(jù)來源是收集學(xué)生意見的調(diào)查數(shù)據(jù),學(xué)生記錄的操作數(shù)據(jù)和電子學(xué)習(xí)的平臺記錄的學(xué)生活動數(shù)據(jù)。
3、總結(jié)
目前培訓(xùn)機構(gòu)在進(jìn)行教學(xué)評估時,所選擇的指標(biāo)都是參考其他機構(gòu)的,并沒有真正從自身實際出發(fā)進(jìn)行評估,因此教學(xué)評估時存在諸多問題。其中最明顯的兩個問題是:第一教學(xué)評估方式單一化嚴(yán)重,只以數(shù)字評估為主;第二評估時容易受各種主觀因素影響。
參考文獻(xiàn)
[1]菅志剛,金旭.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)[J].計算機應(yīng)用研究,2004,21(07):117-118.[2]王全旺,趙兵川.數(shù)據(jù)挖掘技術(shù)在Moodle課程管理系統(tǒng)中的應(yīng)用研究[J].電化教育研究,2011(11):69-73.[3]陳怡薇.數(shù)據(jù)挖掘技術(shù):教育培訓(xùn)管理新手段[J].石油化工管理干部學(xué)院學(xué)報,2014(04):49-52.[4]肖明,陳嘉勇,栗文超.數(shù)據(jù)挖掘在學(xué)習(xí)管理系統(tǒng)中應(yīng)用的研究進(jìn)展綜述[J].現(xiàn)代教育技術(shù),2010,20(09):127-133.
第四篇:在現(xiàn)代檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù)論文
計算機技術(shù)的不斷發(fā)展,信息技術(shù)不斷加強,在社會新的發(fā)展趨勢下,以往的傳統(tǒng)管理模式落后于現(xiàn)代化發(fā)展的管理水平。為了創(chuàng)新檔案管理的模式,提高檔案管理的質(zhì)量,在現(xiàn)代檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù)。
1、信息挖掘技術(shù)
1.1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)是一種基于統(tǒng)計學(xué)、人工智能等等技術(shù)基礎(chǔ)上,能夠自動分析原有數(shù)據(jù),從而做出歸納整理,并對其潛在的模式進(jìn)行挖掘的決策支持過程,簡單來說就是從一系列復(fù)雜的數(shù)據(jù)中提取人們需要的潛在性信息。
1.2數(shù)據(jù)挖掘技術(shù)的方法
二十世紀(jì)末,計算機挖掘技術(shù)產(chǎn)生。其一般用到的方法有:
(1)孤立點分析。孤立點分析法主要用于對于特殊信息的挖掘。
(2)聚類分析。聚類分析方法是在指定的對象中,對其價值聯(lián)系進(jìn)行搜索。
(3)分類分析。分類分析就是找出具有一定特點的數(shù)據(jù),對需要解讀的數(shù)據(jù)進(jìn)行識別。
(4)關(guān)聯(lián)性分析。關(guān)聯(lián)性分析方法是對指定數(shù)據(jù)中出現(xiàn)頻繁的數(shù)據(jù)進(jìn)行挖掘。
(5)序列分析。與關(guān)聯(lián)性分析法一樣,由數(shù)據(jù)之間內(nèi)在的聯(lián)系得出潛在的關(guān)聯(lián)。
1.3計算機挖掘技術(shù)的形式分析
計算機挖掘技術(shù)在使用過程中,收集到的數(shù)據(jù)不同,數(shù)據(jù)收集的方法也就不同。在對數(shù)據(jù)挖掘技術(shù)進(jìn)行形式分析的時候,主要用到:分類形式、粗糙集形式、相關(guān)規(guī)則形式。
2、計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理
系統(tǒng)中的應(yīng)用計算機挖掘技術(shù),能夠?qū)㈦[藏的信息挖掘出來并進(jìn)行總結(jié)和利用,運用到檔案管理中來,在充分發(fā)揮挖掘技術(shù)作用的同時,極大的提高了檔案數(shù)據(jù)的利用價值。數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中,一般用到的方法為:
2.1收集法
該方法在對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,建立對已知數(shù)據(jù)詳細(xì)描述的概念模型。然后將每個測試的樣本與此模型進(jìn)行比較,若有一個模型在測試中被認(rèn)可,就可以以此模型對管理的對象分類。例如,檔案管理員就某事向客戶進(jìn)行問卷調(diào)查并將答案輸入到數(shù)據(jù)庫中。在該數(shù)據(jù)庫中,對客戶的回答進(jìn)行具體屬性描述,當(dāng)有新的回答內(nèi)容輸入的時候,系統(tǒng)會自動對該客戶需求分類,在減輕管理員工作壓力的同時,提高了檔案管理的效率。
2.2保留法
該方法是防止老客戶檔案丟失并將客戶留住的過程。對于任何一個企業(yè)來說,發(fā)展一個新的客戶的成本要遠(yuǎn)遠(yuǎn)高于留住一個來客戶的成本。在客戶保留的過程中,對客戶檔案流失原因的分析至關(guān)重要,因此,采用挖掘技術(shù)對其進(jìn)行分析是必要的。
2.3分類法
通過計算機挖掘技術(shù)對檔案進(jìn)行分類,按照不同的性質(zhì)進(jìn)行系統(tǒng)的劃分,將所有相似或相通的檔案進(jìn)行整理,在人們需要的時候,能夠快速的被提取出來,提高了檢索的效率和分類的專業(yè)性。
3、檔案管理引入計算機挖掘技術(shù)的必要性
計算機挖掘技術(shù)的應(yīng)用,對檔案管理方式的不斷完善有著極其重要的意義,其重要性主要體現(xiàn)在:
3.1對檔案的保護(hù)更全面
一部分具有歷史意義的檔案,隨著保存的時間不斷增加,其年代感加強,意義和價值增大。相應(yīng)的,利用的頻率會隨著利用的價值增加,也更容易被損壞從而導(dǎo)致檔案信息壽命折損,此外,管理不當(dāng)造成泄密,使檔案失去了原本的利用價值,這種存在于檔案管理和利用之間的矛盾,使得檔案管理面臨著巨大的難題。挖掘技術(shù)的運用,緩解了這種矛盾,在檔案管理工作中具有重要的意義。
3.2提升檔案管理的質(zhì)量
在檔案信息管理系統(tǒng)中引入計算機挖掘技術(shù),使得檔案信息管理打破了傳統(tǒng)的模式,通過挖掘技術(shù),對管理的模式有了極大的創(chuàng)新,工作人員以往繁重的工作壓力得到釋放,時間和精力更加豐富,在對檔案管理的細(xì)節(jié)方面也就更加注意,同時也加快了對檔案的數(shù)據(jù)信息進(jìn)行處理的速度,提升檔案管理的整體質(zhì)量。
4、結(jié)語
綜上所述,計算機數(shù)據(jù)挖掘技術(shù)涉及的內(nèi)容很廣,對挖掘技術(shù)的運用,使得各行各業(yè)的發(fā)展水平得到了很大的提高,推動社會經(jīng)濟(jì)的發(fā)展,帶動社會發(fā)展模式的創(chuàng)新。在檔案管理中使用計算機挖掘技術(shù),使得檔案信息保存的方法及安全性有了很大的提高。同時,也需要檔案信息管理人員在進(jìn)行檔案信息管理的時候,能合理利用計算機信息挖掘技術(shù),在提高工作效率的同時,促進(jìn)管理模式的不斷創(chuàng)新,以適應(yīng)時代發(fā)展的要求。
第五篇:數(shù)據(jù)挖掘在房地產(chǎn)營銷中的應(yīng)用
文章摘要:信息資源的分析、整合在房地產(chǎn)行業(yè)的競爭中起著越來越重要的作用。數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助房地產(chǎn)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價值的信息。因此,數(shù)據(jù)挖掘被引入到房地產(chǎn)市場研究領(lǐng)域,并日益受到重視。本文從數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)中的市場研究價值入手,分析了數(shù)據(jù)挖掘在房地產(chǎn)市場研究尤其是客戶信息中的應(yīng)用,并加以舉例說明。關(guān)鍵詞:數(shù)據(jù)挖掘 關(guān)聯(lián)分析 分類
一、房地產(chǎn)行業(yè)需要數(shù)據(jù)挖掘技術(shù)的支持
隨著房地產(chǎn)行業(yè)競爭的加劇,房地產(chǎn)企業(yè)要想在競爭中制勝,必然需要充分的信息支持和準(zhǔn)確的市場判斷。房地產(chǎn)行業(yè)擁有大量的數(shù)據(jù)積累,包括行業(yè)信息、經(jīng)濟(jì)環(huán)境信息、客戶信息等。這些數(shù)據(jù)是房地產(chǎn)企業(yè)市場運作的重要參考。面對快速增長的海量數(shù)據(jù)收集,企業(yè)需要有力的數(shù)據(jù)分析工具將“豐富的數(shù)據(jù)”轉(zhuǎn)換成“有價值的知識”,否則大量的數(shù)據(jù)將成為“數(shù)據(jù)豐富,但信息貧乏”的“數(shù)據(jù)墳?zāi)埂薄?/p>
數(shù)據(jù)挖掘(Data Mining)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在關(guān)聯(lián)、模式,做出預(yù)測性分析的有效工具,它是現(xiàn)有的一些人工智能、統(tǒng)計學(xué)等技術(shù)在數(shù)據(jù)庫領(lǐng)域中的應(yīng)用。應(yīng)用數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢,揭示已知的事實,預(yù)測未知的結(jié)果,并幫助企業(yè)分析出解決問題所需要的關(guān)鍵因素,使企業(yè)處于更有利的競爭位置。
二、數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用
1.?dāng)?shù)據(jù)挖掘的概念
對于企業(yè)的海量信息存儲,數(shù)據(jù)挖掘是一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具。數(shù)據(jù)挖掘根據(jù)預(yù)定義的商業(yè)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的商業(yè)規(guī)律,并進(jìn)一步生成相應(yīng)的分析、預(yù)測模型。
數(shù)據(jù)挖掘發(fā)現(xiàn)的是以前未知的、可理解的、可執(zhí)行的信息,所以也被稱為“知識發(fā)現(xiàn)”(Knowledge Discovery in Databases)。與統(tǒng)計分析技術(shù)相比,數(shù)據(jù)挖掘技術(shù)能很好地和數(shù)據(jù)庫技術(shù)相結(jié)合,而且數(shù)據(jù)挖掘工具用以發(fā)現(xiàn)數(shù)據(jù)中隱含的商業(yè)規(guī)律的方法已不局限于統(tǒng)計技術(shù),還包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)等統(tǒng)計學(xué)科以外的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的“知識”一方面可以用于構(gòu)建預(yù)測模型,另一方面可以被用于豐富統(tǒng)計分析師的背景知識,再被統(tǒng)計分析師應(yīng)用到數(shù)據(jù)分析中。
數(shù)據(jù)挖掘任務(wù)一般可以分兩類:描述和預(yù)測。描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預(yù)測性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。具體來講,數(shù)據(jù)挖掘主要用于解決以下幾種不同事情:
(1)關(guān)聯(lián)分析(Association analysis),是尋找屬性間的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一事件中出現(xiàn)的不同項的相關(guān)性,比如某個住宅項目的目標(biāo)客戶對該項目各方面評價之間的相關(guān)性序列分析尋找的是事件之間時間上的相關(guān)性,如對股票漲跌、房地產(chǎn)周期的分析。
(2)分類(Classification)和預(yù)測(Prediction)。分類根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫記錄分類到許多預(yù)先定義好的類別中。例如,將房地產(chǎn)企業(yè)客戶根據(jù)消費決策模式進(jìn)行分類;同時可以建立預(yù)測模型,給定潛在客戶的收入、職業(yè)、家庭構(gòu)成等個人屬性,預(yù)測他們在購房支出;如將房地產(chǎn)企業(yè)客戶分為潛在客戶、購買者和實際客戶。分類系統(tǒng)可以產(chǎn)生這樣的規(guī)則:“如果客戶可以并且愿意承擔(dān)每月2000元的月供,計劃在1年內(nèi)在某地區(qū)買房,那么他/她是一個潛在客戶;如果客戶至少進(jìn)行過一次業(yè)務(wù)訪問,那么他/她是一個購買者。”
(3)聚類(Clustering)是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數(shù)據(jù)盡量相似。聚類與分類不同:分類之前已經(jīng)知道要把數(shù)據(jù)分成哪幾類,每個類的性質(zhì)是什么;聚類則恰恰相反。
(4)演變分析(evolution analysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。例如,結(jié)合人口構(gòu)成變動趨勢、教育水平發(fā)展趨勢、社會經(jīng)濟(jì)發(fā)展趨勢進(jìn)行房地產(chǎn)消費趨向的分析。
(5)描述和可視化(Description and Visualization),對數(shù)據(jù)進(jìn)行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區(qū)域的形象化描述。
2.?dāng)?shù)據(jù)挖掘的市場研究價值
數(shù)據(jù)挖掘技術(shù)在商業(yè)上實際應(yīng)用十分豐富。應(yīng)用數(shù)據(jù)挖掘技術(shù),可以幫助房地產(chǎn)行業(yè)找出有價值的信息,十分有助于企業(yè)發(fā)現(xiàn)商機、制定開發(fā)計劃與營銷策略。對于房地產(chǎn)市場研究,數(shù)據(jù)挖掘可以應(yīng)用于宏觀經(jīng)濟(jì)形勢研究、市場發(fā)展趨勢研究、樓盤供應(yīng)研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:
(1)宏觀經(jīng)濟(jì)形勢研究——1)房地產(chǎn)周期時序分析中的相似搜索:可找出已有房地產(chǎn)周期數(shù)據(jù)庫中與給定查詢序列最接近的數(shù)據(jù)序列。比較識別兩個相似時間段間數(shù)據(jù)系列的主要差異,對房地產(chǎn)市場的宏觀分析很有參考價值。2)宏觀經(jīng)濟(jì)形勢研究——房地產(chǎn)周期一般性因素關(guān)聯(lián)分析:一般而言,房地產(chǎn)周期是影響不動產(chǎn)收益的一系列因素組成的總體概念。各因素均會對總體房地產(chǎn)周期起決定作用。關(guān)聯(lián)分析方法可用于幫助發(fā)現(xiàn)各因素和房地產(chǎn)周期間的交叉與聯(lián)系。
(2)市場發(fā)展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團(tuán)購買房地產(chǎn)比重的擬合與分析;3)對房地產(chǎn)銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發(fā)展水平等動態(tài)的分析、總結(jié)和評價,及時獲得準(zhǔn)確數(shù)據(jù),輔助經(jīng)營決策。
(3)樓盤供應(yīng)研究——地理發(fā)展空間的多維分析:綜合人口住房條件及分布、土地利用現(xiàn)狀及政府規(guī)劃、交通現(xiàn)狀分布信息,通過聚集及層次化描述,發(fā)掘區(qū)域內(nèi)需建立的高檔別墅、高、中、低檔公寓的數(shù)量及各自的地理位置和發(fā)展計劃。
(4)客戶研究——客戶信息的多維關(guān)聯(lián)和序列模式分析:關(guān)聯(lián)分析可在客戶信息中發(fā)現(xiàn)客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。
目前,專業(yè)市場研究公司對房地產(chǎn)行業(yè)的調(diào)研主要集中在客戶需求分析方面,并積累了一定的經(jīng)驗,因此,本文主要探討房地產(chǎn)客戶信息的數(shù)據(jù)挖掘。
3.?dāng)?shù)據(jù)挖掘在房地產(chǎn)客戶研究中有著廣泛的應(yīng)用
房地產(chǎn)行業(yè)的客戶信息有許多特點,如下圖所示,一方面房地產(chǎn)行業(yè)面對的客戶群廣泛,而且客戶的特征描述的結(jié)構(gòu)復(fù)雜,另一方面房地產(chǎn)客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。
對于復(fù)雜、多樣而且擅變的客戶信息,房地產(chǎn)行業(yè)客戶信息的數(shù)據(jù)挖掘有助于識別客戶購買行為,發(fā)現(xiàn)客戶購買模式和趨勢。從而,幫助房地產(chǎn)企業(yè)改進(jìn)服務(wù)質(zhì)量,取得更好的客戶關(guān)系和滿意程度,設(shè)計更好的營銷方案,減少商業(yè)成本。根據(jù)已有的數(shù)據(jù)挖掘經(jīng)驗,數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用可以歸納成以下幾個方面:
4.明確商業(yè)目標(biāo)
三、如何在房地產(chǎn)行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)
應(yīng)用數(shù)據(jù)挖掘的首要任務(wù)就是明確需要達(dá)到什么樣的商業(yè)目標(biāo),并描述出需要解決的問題。目標(biāo)的描述應(yīng)該細(xì)化、清楚,以便于選擇合適的挖掘方法,也方便檢測數(shù)據(jù)挖掘效果,判斷建立的模型的有效性。例如,下列目標(biāo)是大而空的目標(biāo):獲得客戶行為的了解;在數(shù)據(jù)中發(fā)現(xiàn)有用的模型;發(fā)現(xiàn)一些有意思得東西。而另外一些目標(biāo)有較強操作性:發(fā)現(xiàn)哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。
5.?dāng)?shù)據(jù)準(zhǔn)備
基于數(shù)據(jù)挖掘的商業(yè)目標(biāo),提取所需要的數(shù)據(jù)。為了保證數(shù)據(jù)的質(zhì)量,除了對數(shù)據(jù)進(jìn)行必要地檢查和修正外,還需要考慮不同源之間數(shù)據(jù)的一致性問題。
如果數(shù)據(jù)集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當(dāng)?shù)臏p少輸入的字段。常用的方法包括:“描述型數(shù)據(jù)挖掘”、連結(jié)分析等。
很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預(yù)測變量,比如用一段時間內(nèi)收入變化情況代替一個單一的收入數(shù)據(jù)。因此,在數(shù)據(jù)準(zhǔn)備階段需考慮是否創(chuàng)建一些新的變量。
處理缺失數(shù)據(jù)也是數(shù)據(jù)準(zhǔn)備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。
6.建立模型
建立模型是一個反復(fù)的過程。首先需要選擇適合解決當(dāng)前問題的模型。對模型的選擇過程可能會啟發(fā)對數(shù)據(jù)的理解并加以修改,甚至改變最初對問題的定義。
一旦選擇了模型的類型及應(yīng)用的方法,所選擇的模型將決定對數(shù)據(jù)的預(yù)處理工作。例如,神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)據(jù)的格式有特定的限制等。
接下來是建立模型的工作。對于通過數(shù)據(jù)挖掘建立的模型需要有一定的數(shù)據(jù)來測試和驗證。對于預(yù)測性任務(wù),需通過反復(fù)的測試、驗證、訓(xùn)練,才能不斷提高模型的準(zhǔn)確率。
大部分?jǐn)?shù)據(jù)挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經(jīng)網(wǎng)絡(luò)既可以用于建立分類樹,也可建立回歸樹。
7.輸出結(jié)果的評價和解釋
模型建立好之后,必須評價其結(jié)果,解釋其價值。在實際應(yīng)用中,模型的準(zhǔn)確率會隨著應(yīng)用數(shù)據(jù)的不同發(fā)生變化。但準(zhǔn)確度自身并不一定是選擇模型的正確評價方法。對輸出結(jié)果的理解需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。如果模型每個不同的預(yù)測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。
直接在現(xiàn)實世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意后再向大范圍推廣。
8.實施
模型在建立并經(jīng)驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來標(biāo)示一個事例的類別,給一類客戶打分等,還可以用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用其他工具做進(jìn)一步分析。
在應(yīng)用模型之后,還要不斷監(jiān)控模型的效果。即使模型的運用很成功,也不能放棄監(jiān)控。因為事物在不斷發(fā)展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。
四、應(yīng)用舉例:基于客戶分類的關(guān)聯(lián)分析
1.商業(yè)目標(biāo)
為了更詳盡地了解客戶的消費決策,本案例設(shè)計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結(jié)果可以被用于預(yù)測性分析,例如預(yù)測客戶最傾向于做出哪種購買行為。2.?dāng)?shù)據(jù)準(zhǔn)備
本案例中采用某一時點上的房地產(chǎn)消費者需求抽樣調(diào)查,取出描述消費者個人屬性和消費特點的字段。
3.建立模型
(1)對數(shù)據(jù)進(jìn)行分類
本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。
案例得到的抽樣數(shù)據(jù)顯示,盡管地理位置是影響一個房地產(chǎn)項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關(guān)注程度為分類標(biāo)準(zhǔn),構(gòu)建了一個簡單的決策樹。決策樹中根據(jù)購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關(guān)型五種類型。下表是應(yīng)用決策樹得到的客戶分類結(jié)果。從各客戶群評分的均值和標(biāo)準(zhǔn)差可以看出,各客戶群具有較好的組內(nèi)相似性和組間差異性,說明所構(gòu)建的決策樹的分類結(jié)果比較理想,可用于進(jìn)一步的分析。
(2)關(guān)聯(lián)分析運用關(guān)聯(lián)分析的目的是尋找數(shù)據(jù)庫中值的相關(guān)性。本例采用基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法,挖掘每類客戶不同屬性間的相關(guān)性。經(jīng)過挖掘,發(fā)現(xiàn)一些值得深入探討的關(guān)聯(lián),見下表:
注:a)支持率反映了關(guān)聯(lián)是否是普遍存在的規(guī)律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關(guān)聯(lián)規(guī)則描述。
b)可信度反映了關(guān)聯(lián)規(guī)則前提成立的條件下結(jié)果成例的概率。本例中,可信度=15%可以解釋為,對應(yīng)的客戶群中有15個人符合關(guān)聯(lián)規(guī)則的描述。
c)興趣度反映了關(guān)聯(lián)規(guī)則中元素的關(guān)系的密切程度。興趣度越大于1說明該規(guī)則中的元素的關(guān)系越密切,該規(guī)則的實際利用價值越大。
d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領(lǐng)域?qū)<以O(shè)定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。
上表中列出的關(guān)聯(lián)規(guī)則均有較高的支持率、可信度和興趣度。為了更加準(zhǔn)確地挖掘關(guān)聯(lián)規(guī)則。對挖掘出的關(guān)聯(lián)規(guī)則更換因果關(guān)系,形成新的關(guān)聯(lián)規(guī)則與之進(jìn)行對比。如下例:
關(guān)聯(lián)規(guī)則A1:地理位置無關(guān)型客戶=≥重視物業(yè)管理
支持率=9.7% 可信度=30.3% 興趣度=2.4與
關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理 =≥地理位置無關(guān)型客戶
支持率=9.7% 可信度=76.9% 興趣度=2.4
對比兩個關(guān)聯(lián)規(guī)則將發(fā)現(xiàn),“重視物業(yè)管理的人不關(guān)心地理位置”的可能性(76.9%)高于“不關(guān)心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說明關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無關(guān)型客戶是一條更有意義的關(guān)聯(lián)規(guī)則。
其他被發(fā)掘的關(guān)聯(lián)也可以通過類似的比較,進(jìn)行深一步的挖掘。在此不再全部做出詳細(xì)分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業(yè)經(jīng)驗進(jìn)行統(tǒng)計分析,往往會因為分析人員的主觀性或者數(shù)據(jù)量太大難以實施而存在信息提取的局限性。而通過數(shù)據(jù)挖掘得到的信息,一方面能彌補直接應(yīng)用統(tǒng)計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業(yè)背景知識;另一方面可以通過反復(fù)的驗證、機器學(xué)習(xí)建立模型,直接成為分析人員的分析、預(yù)測的工具。
需要說明:
a)本案例的目的在于說明數(shù)據(jù)挖掘算法的應(yīng)用價值,得到的結(jié)果僅供參考,并不作為定論,而且數(shù)據(jù)挖掘的結(jié)果需要由行業(yè)內(nèi)的商業(yè)分析人員判斷:是否真的具有意義,是否有進(jìn)一步分析、探討的價值。也就是說數(shù)據(jù)挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業(yè)內(nèi)商業(yè)分析人員的分析工作。
b)案例中的數(shù)據(jù)挖掘作為方法應(yīng)用的探討,如要生成一個可操作的模型工具還需足夠的數(shù)據(jù)集支持進(jìn)行測試、驗證、訓(xùn)練才能不斷提高模型的準(zhǔn)確率。
c)本案例中解決問題的方法不是唯一的,可能應(yīng)用其他的分類手段、分類標(biāo)準(zhǔn)能得到更好的結(jié)果。具體方法的應(yīng)用要取決于實施人員的建模能力、行業(yè)經(jīng)驗。也就是說,數(shù)據(jù)挖掘?qū)θ藛T有較高的要求。數(shù)據(jù)挖掘的人員不僅要有良好的統(tǒng)計概念、建模能力,還要懂得基本的商業(yè)和行業(yè)概念。
五、房地產(chǎn)行業(yè)數(shù)據(jù)挖掘的應(yīng)用前景
隨著IT/Internet等新技術(shù)發(fā)展,市場研究在房地產(chǎn)行業(yè)的應(yīng)用已經(jīng)不再局限于數(shù)據(jù)采集和簡單的歸納、數(shù)據(jù)分析。更高的決策服務(wù)是建立在更大量的“數(shù)據(jù)——信息——知識”的基礎(chǔ)上的,因此數(shù)據(jù)挖掘、商業(yè)智能等概念與技術(shù)的引入促進(jìn)了數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用。與此同時,隨著房地產(chǎn)企業(yè)數(shù)據(jù)挖掘應(yīng)用的深入,數(shù)據(jù)、數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘方法的多樣性將給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題。例如:
1、應(yīng)用地理信息系統(tǒng)(GIS)尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中的人機交互。
2、web挖掘:由于web上存在大量信息,隨著web的發(fā)展,有關(guān)web內(nèi)容挖掘、web日志挖掘等網(wǎng)絡(luò)上的數(shù)據(jù)挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個最為重要和繁榮的應(yīng)用領(lǐng)域。房地產(chǎn)公司的企業(yè)形象宣傳、營銷、客戶維護(hù)等工作都將離不開網(wǎng)絡(luò),也必然將需要web挖掘數(shù)據(jù)支持。