久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘

時間:2019-05-12 23:54:43下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘》。

第一篇:基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘

基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘

近期參加了CCF舉辦的“大數據精準營銷中搜狗用戶畫像挖掘”競賽,最終得到復賽第32名。正好這學期《機器學習與數據挖掘》課程需要一個實驗報告的大作業,于是就那它來寫了。本博文會在這幾周不斷的完善更新ing

1.選題背景與意義

1.1 用戶畫像與精準營銷

“用戶畫像”是近幾年誕生的名詞。很多營銷項目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫像。在以前,大多媒體會針對自身用戶做一個分類,但是有了大數據后,企業及消費者行為帶來一系列改變與重塑,通過用戶畫像可以更加擬人化的描述用戶特點。

用戶畫像,即用戶信息標簽化,就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之后,完美地抽象出一個用戶的商業全貌,可以看作是企業應用大數據技術的基本方式。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

消費方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說,基于用戶畫像上的精準營銷不管對企業還是對用戶來說,都是有需求的,這會給雙方交易帶來極大便捷,也為雙方平等溝通搭建了一個暢通平臺。

1.2 搜索引擎下用戶畫像的挑戰

在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動性、查詢的實時性等,帶來了與企業傳統的對用戶信息進行收集與分析有著巨大的不同、更加艱巨的挑戰。

例如,我們實時獲取到的是用戶的查詢語句,而由于用戶的流動性,并不能直接獲取到如年齡、性別、學歷等用戶的標簽信息。這么一來,也就無法根據用戶屬性對用戶進行分群處理,而后再通過推薦系統進行產品上的優化

1.3 本文內容概要

本文內容概要如下:

第1章:簡介用戶畫像與搜索引擎下用戶畫像的精準營銷的挑戰。第2章:說明實驗集群、數據與課題研究目標。

第3章:介紹使用分詞工具對用戶的搜索詞列進行分詞,以及相關的優化方案。第4章:介紹在分詞的基礎上,對文本進行特征的抽取與轉換,以及相關的優化方案。第5章:介紹在原始特征向量上,進行聚類與降維。第6章:介紹實驗中試驗過各分類模型 第7章:介紹模型參數調優

第8章:總結本課題研究中不足與展望后續的優化方案 第9章:參考文獻 2.課題實驗準備

2.1 Spark集群

節點 cdh01 cdh02 cdh03 cdh04 備注

8核,32G內存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 2.2 數據集

數據文件 備注

Train.csv 帶標注的訓練集 Test.csv 測試集 2.3 數據介紹

本數據來源于搜狗搜索數據,ID經過加密,訓練集中人口屬性數據存在部分未知的情況(需要解決方案能夠考慮數據缺失對算法性能的影響)。數據所有字段如下表所示:

字段 ID age 說明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲

Gender 0:未知1:男性2:女性

Education 0:未知學歷;1:博士;2:碩士;3:大學生;4:高中;5:初中;6:小學 Query List 搜索詞列表 2.4 數據示例

對于train.csv中的數據記錄:

00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務描述

根據提供的用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數據,通過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行判定。

3.查詢詞分詞

3.1 NLPIR

NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取;張華平博士先后傾力打造十余年,內核升級10次。

全球用戶突破20萬,先后獲得了2010年錢偉長中文信息處理科學技術獎一等獎,2003年國際SIGHAN分詞大賽綜合第一名,2002年國內973評測綜合第一名。

我們傳入每個用戶的搜索詞列,表經過NLPIR分詞工具得到的分詞。之后,我們做個進一步的優化策略:

3.1.1 去停用詞

我們根據分詞后詞語所帶的詞性,對一些特征代表性不夠強的詞語進行過濾:

for(int i = 0;i < sbtmp.length();++i){

char cc = sbtmp.charAt(i);

if(cc == ' '){

sbtmp.deleteCharAt(i);

--i;

} else if(cc == '/'){

// 去詞條件

Boolean isdel =

// 1.去標點

(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')

// 2.疑問詞

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'

&& sbtmp.charAt(i + 2)== 'y')

// 3.數字

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')

// 4.連詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')

// 5.副詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')

// 6.嘆詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')

// 7.擬聲詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')

// 8.介詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')

// 9.量詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')

// 10.助詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')

// 11.純動詞

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'

&& sbtmp.charAt(i + 2)== ' ');

// 去詞

if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'

&& sbtmp.charAt(i + 1)!= 'h'

&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){

while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

while(i >= 0 && sbtmp.charAt(i)!= ','){

sbtmp.deleteCharAt(i);

--i;

}

}

// 若無需去詞,把‘/’轉為‘,’,并去除隨后的詞性標志

else {

sbtmp.setCharAt(i, ',');

while(sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

}

}

}

for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){

sbtmp.deleteCharAt(i);

--i;

}

// 去中間單個字

else if(sbtmp.charAt(i1);

sbtmp.deleteCharAt(i1] == Y[j1][j1][j];

//刪除X第i個字符

t1 = t1 < dp[i][j1];

//刪除Y第j個字符

t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同

dp[i][j] = t1 + 1;

這里我們所使用的優化方案為:

對整個訓練集和測試集的搜索詞列做分詞后的詞頻統計表

對每個用戶的搜索詞列分詞后的各個詞與詞頻統計表各詞(排除前者自身)進行編輯距離計算。得到詞頻統計表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個詞頻最高的詞將該詞替代。4.7 額外增加數據量

在大數據時代背景下,只要數據量足夠的大,反而我們所選用的不同的算法模型對最終的預測準確率的影響會變小,獲取更多數據會使模型更完善更準確。我們這里用不同方案所得到的分詞結果,人為的增加訓練集的數據。如將10萬條記錄的訓練集進行NLPIR分詞得到結果,與進行”結巴”提取關鍵詞得到的結果拼接,就將訓練集記錄人為的翻倍了。后續的分類實驗中證明了,使用該方案,在模型相同的情況下,相比原來會有1%左右的準確率的提升。

5.聚類與降維

2009年結束的Nexfix競賽表明,很多參數團隊用到的高等矩陣因子分解對模型提高預測準確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過這些屬性來描述用戶。20世紀80年代后期,利用潛在的”語義”屬性的思想被成功的應用于信息檢索領域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發現文檔中的潛在的屬性。[2]而本課題在實驗中會使用到LDA方法。

5.1 LDA

隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測主題)。甚至可以說LDA模型現在已經成為了主題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計模型的角度來說,我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型中生成的。也就是說 在主題模型中,主題表現為一系列相關的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現概率較高的單詞(參見下面的圖),這些單詞與這個主題有很強的相關性。這里寫圖片描述

LDA可以用來識別大規模文檔集或語料庫中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。

LDA可以被認為是如下的一個聚類過程:

各個主題(Topics)對應于各類的“質心”,每一篇文檔被視為數據集中的一個樣本。

主題和文檔都被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型)

與采用傳統聚類方法中采用距離公式來衡量不同的是,LDA使用一個基于統計模型的方程,而這個統計模型揭示出這些文檔都是怎么產生的。5.1.1 模型訓練

Spark API 參數介紹:

K:主題數量(或者說聚簇中心數量)

maxIterations:EM算法的最大迭代次數,設置足夠大的迭代次數非常重要,前期的迭代返回一些無用的(極其相似的)話題,但是繼續迭代多次后結果明顯改善。我們注意到這對EM算法尤其有效。,至少需要設置20次的迭代,50-100次是更合理的設置,取決于數據集。

docConcentration(Dirichlet分布的參數α):文檔在主題上分布的先驗參數(超參數α)。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。topicConcentration(Dirichlet分布的參數β):主題在單詞上的先驗分布參數。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。checkpointInterval:檢查點間隔。maxIterations很大的時候,檢查點可以幫助減少shuffle文件大小并且可以幫助故障恢復。

val lda=new LDA()

.setK(20)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(100)

val model=lda.fit(dataset_lpa)

5.1.2 模型評價

生成的model不僅存儲了推斷的主題,還包括模型的評價方法。模型的評價指標:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

用評價方法,在online 方法下,對setMaxIter進行調參:

for(i<-Array(5,10,20,40,60,120,200,500)){

val lda=new LDA()

.setK(3)

.setTopicConcentration(3)

.setDocConcentration(3)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(i)

val model=lda.fit(dataset_lpa)

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

println(s“$i $ll”)

println(s“$i $lp”)}

可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數需要設置50次以上,才能收斂:

5.1.3 對語料的主題進行聚類

val topicsProb=model.transform(dataset_lpa)

topicsProb.select(“label”, “topicDistribution”)show(false)

/**

+-----++

|label|topicDistribution

|

+-----++

|0.0 |[0.***,0.***147,0.***77] |

|1.0 |[0.***3,0.***623,0.***]

|

|2.0 |[0.***7,0.***417,0.***]

|

...*/

label是文檔序號,文檔中各主題的權重,我們可以將該DataFrame帶入后續的分類器中,進行訓練。

5.1.4 其他聚類與降維

Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權重,以便于后續的分類。但是由于LDA在主題聚類上的典型性,我們的課題實驗只試驗了LDA的方案

第二篇:外呼銷售精準營銷數據挖掘模型

? OB實現精準營銷需要建立的數據挖掘模型

第一:模型橫向

1、會員定性:通過對會員姓名,性別,年齡,購買商品,購買時間,購買金額,商品品類等數據。得出客戶的購買習慣,購買能力,會員粘稠度。得出會員屬性列表。

2、商品定位:通過同緯度得出商品銷售生命周期,商品毛利,商品消費群等。通過此信息策劃OB商品。建立商品地圖。

3、行銷:根據現有銷售數據庫,分析各維度數據。得出針對不同時間,客戶,商品使用不同行銷活動對營銷的影響,參考此模型制定行銷策略并預估營銷效果。

第二:縱向:

1、業務需求分析:分析客戶購買特性和購買記錄,支撐營銷策劃。根據現有公司銷售要求,針對什么客戶進行營銷。包括“促銷方案分析及評估”,“個性化商品”,“營銷方案及有效化”,“促銷敏感性和目標”等

2、數據準備和轉化:為支撐相關業務要求,銷售和客戶數據能準確,全面精準與業務匹配;另外能將相關數據按照數據庫要求及時歸類。

3、會員屬性選擇:根據業務要求能精準找到會員屬性。符合相關方案要求。

4、建立會員模型:按照會員姓名,性別,年齡,購買商品,購買時間,購買金額,商品品類,行銷活動使用等數據等維度建立會員模型。包括客戶模型,客單模型,積分模型,銷售明細模型,商品模型,付款模型。

5、模型評估:在建立會員模型之后需要測試業務需求分析,數據轉化,會員屬性定義,商品和行銷模型匹配。能進行精準的市場定位,包括“客戶價值及趨勢”,“客戶潛在價值及忠誠度”,“客戶流失傾向”,“行銷活動敏感度”,“客戶消費傾向及消費周期”,“客戶基本信息”評估。

第三:數據挖掘邏輯

1、分類問題:對數據進行分類,預測問題類別。通過對多個數據源進行分類,能夠將數據進行歸類,并能通過數據分析發現問題同時對問題也能進行分類。

2、聚類問題:解決一群對象劃分不同類別的問題。通過對不同的類型數據能統一和整理成一個類別。這是分總概念,通過匯總不同類別數據和問題找到集中式解決方案。

3、關聯性問題:upsell中的upsell和cross-sell。通過模型分析,幫助客戶尋找商品,為商品尋找合適客戶。分析出客戶的購買周期和購買特點找出客戶潛在需求針對性做關聯銷售和交叉銷售。

4、預測問題:預測變量數據是否為連續型的情況。通過分類和聚類,能將數據模型中的數據和相關問題進行串聯。找到問題的發展和變化趨勢,預測問題以幫助改進銷售方案最終實現精準營銷。

OB-TEAM

第三篇:數據挖掘在保險精準營銷中的應用-開題報告

全日制工學(工程)碩士學位論文開題報告

課題來源及研究的目的和意義

1.1 課題來源

自選課題

1.2 選題價值及意義

大型的保險公司已將數據挖掘應用到保險業務中,但由于應用在保險行業的分析模型不是很健全,目前在實際操作中一般都采用套用現成算法的方式,導致其結果不是特別的理想。數據挖掘不只是數據的組織和呈現,而是一個從理解業務需求,尋求解決方案到接受實踐檢驗的完整過程,過程中的每個階段都需要建立科學的方法。數據挖掘是精準營銷創造商業價值的關鍵,也應該是精準營銷重要組成部分。

在保險企業中,應用數據挖掘有以下好處:從業務數據方面看,利用企業經營積累起來的海量數據,經過數據預處理等操作后,并最終挖掘出有用的信息、規則,用來幫助企業的管理者進行正確的決策。站在未來的角度上看,數據挖掘通過對業務數據進行研究與分析,可以預測出企業相關經營方面未來的發展趨勢,基于對客戶群體進行分類,推出滿足客戶需求的相關商業產品,并挖掘出潛在客戶群體等。另外,從目前的發展和運用現狀來看,數據挖掘技術未來發展市場十分廣闊。而且數據挖掘技術與保險企業商業問題的結合也應當是一個必然的過程。隨著保險企業自身經營管理的不斷完善,從海量的業務數據中,獲取有價值的信息和知識,分析并研究客戶喜好及消費行為特征,并推出適合客戶需求的產品,針對客戶進行具體的營銷,贏得市場地位,對于保險企業來說,是未來快速發展、贏得企業生存的關鍵。因此,學習與運用數據挖掘技術,也是保險企業未來人才培養的一個重要方面。

2.國內外在該方向的研究現狀及分析

2.1 精準營銷國內外現狀

精準營銷在國外發達國家已經有幾十年的歷史,己經成為各類型企業的常規營銷方式。杰羅姆·麥卡錫(E.Jerome McCarthy)于1960年在其《基礎營銷》(Basic Marketing)一書中第一次將企業的營銷要素歸結四個基本策略的組合,即著名的“4P’s”理論:產品(Product)、價格(Price)、渠道(Place)、促銷(Promotion),由于這四個詞的英文字頭都是P,再加上策略(Strategy),所以簡稱為“4P’s”。在1976年,“現在營銷學之父” 菲利普·科特勒在其代表作《營銷管理》進一步確認了以4P為核心的營銷組合方法論。

全日制工學(工程)碩士學位論文開題報告

1990年,美國學者羅伯特·勞朋特(RobertLauterborn)教授提出了與傳統營銷的4P相對應的4C營銷理論。4C(Customer、Cost、Convenience、Communication)營銷理論以消費者需求為導向,重新設定了市場營銷組合的四個基本要素:瞄準消費者的需求和期望(Customer)。首先要了解、研究、分析消費者的需要與欲求,而不是先考慮企業能生產什么產品;消費者所愿意支付的成本(Cost)。總的來說,4C理論認為,對現代企業來講,重視產品,更要重視顧客;追求成本,更要追求價格;提供消費者的便利比營銷渠道更重要;營銷活動不單純是在促銷,而是與客戶有效的溝通。4C理論以顧客的便利與滿意為企業營銷的根基,企業必須從消費者的角度出發,為消費者提供滿意的產品和服務,才能在競爭中立于不敗之地。

目前,最為流行的營銷模式是3P3C,Probability(概率):營銷、運營活動以概率為核心,追求精細化和精準率。Product(產品):注重產品功能,強調產品賣點。Prospects(消費者,目標用戶)。Creative(創意,包括文案、活動等)。Channel(渠道)。Cost/Price(成本/價格)。而在這其中,以數據分析挖掘所支撐的目標響應概率(Probability)是核心,在此基礎上將會圍繞產品功能優化,目標用戶細分,活動創意,渠道優化,成本的調整等重要環節和要素,共同促進數據化運營持續完善,甚至成功。

相對于發達國家,精準營銷在中國的發展起步較晚,但是發展速度非常快。三十年改革開放,中國營銷經歷了一個從“無到有”從“有到強”的過程;三十年市場營銷的實踐磨練,中國企業積累了很多營銷經驗、也培養了很多營銷人才、形成了較為系統的營銷理論,從整個大的層面還是積極的、卓有成效的。但是真正意義上的精準營銷在國內的發展起步比較晚,中國企業對于數據庫營銷的核心,包括“客戶識別”“客戶分析”“客戶互動”“客戶體驗”的數據庫營銷專業領域,往往知之甚少,因此中國企業普遍較為缺少精準營銷的意識,與這種現象在一定程度上也體現了精準營銷在中國發展的不成熟。2.2 數據挖掘國內外現狀

在保險業中,美國進行數據挖掘系統研究最為著名的公司是艾克國際科技有限公司(AkuP),其研發的數據挖掘系統能夠提供前后端分析的完整功能,且可以做到對保險客戶進行一對一行銷(One to One Mar-keting)。總體上,其主要功能涵蓋了策略層、戰術層、執行層,詳細包括保險客戶的組成、成長潛力、穩定度,防患客戶流失、進行客戶風險管理,幫助業務人員掌握客戶信息等。根據國外相關研究報告的數據顯示,數據挖掘在國際市場上的營業份額已經遠遠超過了數百億美元。在國外,保險、零售、銀行等企業引入數據挖掘系統相關工具所占的比例最高,這些企業在成功引進數據挖掘

全日制工學(工程)碩士學位論文開題報告

工具以后,銷售營業額、市場份額等相比以前都有大幅提升。因此,基于數據挖掘的應用系統與工具也相繼延伸到國外各行各業的相關領域,發揮著其作用。

20世紀末,數據挖掘在進入中國后,起先在證券業、銀行業得到廣泛的應用與實踐,而保險業是繼前二者之后,才逐漸引入數據挖掘進行海量數據的分析與研究,隨后,采用信息化技術來提高各保險公司的競爭力也成為共識。國內的多數企業,為了追上這股浪潮,緊跟信息化革命的步伐,也投入了相當大的人力、物力、財力等來引進數據挖掘技術。特別是在我國的許多大型國有企業中,比如保險、銀行、證券、電信等,這些企業都擁有海量的數據資源,且企業經濟實力強大,行業規模擴展快速等特點,其在數據挖掘系統應用方面已經邁出了堅實的一步.2.3數據挖掘在保險精準營銷中的應用

保險領域的數據挖掘就是從保險行業所積累的大量數據信息中,通過知識發現技術,發掘感興趣的模式或知識,來滿足保險行業和監管部門的應用要求。數據挖掘技術在保險精準營銷系統中所發揮的重要作用己經逐漸被認同。數據挖掘一開始就是面向應用而誕生的,所要涉及到的挖掘問題主要分為以下倆類:

1.關聯問題。關聯規則研究主要有兩個方向:一是在研究的問題中,假定用戶購買的所有產品是同時一次性購買的,分析的重點就是所有用戶購買的產品之間關聯性;二是序列問題,即假定一個用戶購買的產品的時間是不同的,而且分析時需要突出時間先后上的關聯,這是關聯問題的一種特殊情況。

2.分類問題。分類問題屬于預測性的問題,但又區別于普通的預測問題,其預測的結果是類別而不是具體的數值。例如:對客戶進行分層,基于一個客戶的相關信息,判斷出他屬于哪一層的客戶,未來一段時間是否會購買某類保險?將來是否會成為保險公司的高價值客戶?

圍繞保險領域的不同需求,可將其歸納為:保險產品的設計、營銷方式創新。1.保險產品設計。從保險產品設計與開發的角度出發,分析對于保險條款、保險費率具有重大影響的產品結構、技術結構及所有者結構等因素,滿足市場的實際需要。在研制開發保險產品的過程中,需要充分注意適應這些因素的變化,積極開發各種保險產品;通過分析已購買某種保險的人是否同時購買另一種保險,從而可以推進保險產品的創新,行交叉銷售和增量銷售,提高客戶滿意度。未來的保險市場必將是保險產品不斷得到創新的市場。

2.營銷方式創新。通過對客戶信息的挖掘來支持目標市場的細分和目標客戶群的

全日制工學(工程)碩士學位論文開題報告

定位,制定有針對性的營銷措施,包括保險公司的專職人員、代理人員等傳統渠道以及經紀人、電話、計算機網絡和銀行等輔助渠道,提高客戶響應統率,降低營銷成本。

3.主要研究內容

3.1 技術方案

保險行業在海量數據信息的時代,傳統的營銷模式缺乏針對性。當客戶數量提高、相應的信息量增多、所需保險種類復雜化,如果只依靠傳統的營銷模式來解決問題,那必定帶來很大的人力和財力的損傷,同時會降低工作效率。如此下去,隨著需求的不斷增加或變更,傳統的營銷模式沒有從根本上解決海量信息帶來的挑戰,甚至會流失一部分的客戶。針對精準營銷的主要研究內容如下: 3.1.1 ETL數據預處理

我們要對保險公司提供的原始數據進行預處理后,在可以加載到我們的處理平臺上,這個過程,我們需要做到以下幾部:

(1)數據清洗。數據清洗主要處理空缺值、噪聲數據。針對于空缺值的處理,我們可以采用回歸、貝葉斯形式化方法工具或判定樹歸納等確定空缺值。依靠現有的數據信息來推測空缺值,使空缺值有很大的機會保持與其他屬性之間的聯系。還可以用全部變量來替換空缺值、或是用平均值來填充。針對于噪聲數據,我們可以采用分相或是回歸的辦法來處理。

(2)數據集成。我們從保險公司拿回來的數據,不可能是統一的格式,針對于不同來源的數據,我們要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的實體匹配來進行模式集成。在集成過程,會出現一個屬性多次出現或一個屬性命名不一致的問題,針對屬性冗余的問題,可以用相關分析監測,然后刪除冗余的屬性。

(3)數據轉換。數據轉換的目的就是把數據轉換成有利于進行數據挖掘的形式。針對于數據屬性,我們可以刪除一些無關的屬性、也可以把一些屬性進行維歸約,甚至針對于一些關鍵性的屬性,我們可以細化它的屬性。

3.1.2 并行數據庫運算環境下,提出客戶精確分類和客戶與產品關聯分析組合算法

本文的目的是尋找一種適合保險營銷的算法,來解決目前營銷的困難,營銷的最大的困難就是客戶以及針對于客戶的產品設計。針對于客戶的管理,我們要做到對客戶的分層,分類管理,把客戶按照現居住地,性別,家庭狀況,以及收入情況等屬性進行細分。針對以購買保險的客戶,關聯出已購買的保險種類與細分的屬性之間的

全日制工學(工程)碩士學位論文開題報告

關系,將關聯出的關系應用到潛在客戶,替潛在客戶找到適合自己的產品;根據客戶的生活狀態、家庭狀態,找出適合客戶的隱藏產品,實現針對性、交叉性銷售。3.1.3對挖掘出的結果進行驗證

數據挖掘的模型,是要經過驗證,一般的情況下,置信度在80%以上就可以投入應用中。挖掘結果驗證的方法有兩個,一是對現有數據進行抽樣觀察,用具體的結果支持我們的計算結果,這個是驗證;另一個更重要和更有價值,需要保險公司的業務部門根據我們計算的結果,對客戶進行深入的精準營銷作業,然后搜集指導作業的結果,分析精準定向銷售的成功率的提升情況,用實際業績的數據來驗證我們的研究成果。

3.2 關鍵技術方法

關鍵問題一:產品分類、客戶分層,客戶分類。特別是客戶分類是精準營銷的前提。當前壽險行業(我們目前能拿到主要就是壽險企業數據)的客戶的分類,一般是基于下面幾個分類模式的:地理變量、人口統計變量、心理變量、行為變量。由于是本地保險企業某個范圍內的數據,地理變量的影響很小,人口統計變量對壽險的影響特別大,是本課題的研究重點。中國人對保險產品的認知和偏好,明顯與西方不同,而保險行業在中國的真正的發展時間還很短,很多與中國國情和文化有關聯的問題都沒有得到比較深入的研究。比如,提出兩個有關客戶分類的問題,一是“代溝”,二是“家庭關系”。代溝問題是大家常談的社會問題,中國最近30年發生劇烈的社會變革,年齡跨度幾年的人,其對社會的認知模式和消費習慣就可能有重大的區別,必然影響保險產品的銷售趨向,那么如何在保險客戶數據中,找到并比較準確的“代溝分類閾值”?另一個“家庭關系”,建立穩定家庭的客戶顯然是購買人壽類保險產品的主力,而購買保險產品的過程中,中國體現了很強的“家主決策權”,在客戶分類的過程中,家庭關系作為一個特殊的、多指向的、數據元內部有交叉關系的變量組,必然會深刻影響客戶的分類方法,以及在后面依附于分類計算結果之上的關聯計算方法和計算結果。這是本課題研究的另一個重要問題。本課題對保險用戶的分類方法雖然還屬于當前流行的大類分析方法中的類型,但相比一般粗糙的分類方式,我們采用了更精細、更深入的分類方法,當然對分類算法就需要進行深入的定制、優化研究。

關鍵問題二:根據前面對客戶分類的設想,在分類中出現用關系表來描述的客戶種類屬性的情況下,客戶屬性要體現“家庭單位和成員關系的客戶分類屬性”,本身可能是一個多維表,那么當下普遍采用的關聯關系的二維計算方法都是用來分析兩個一

全日制工學(工程)碩士學位論文開題報告

維數據屬性之間的關系,比如當前主流的Apriori算法。當前通用的算法如果不進行改進和局部的特殊設計,顯然不能滿足對本課題對應的保險客戶數據屬性表與產品表之間進行關聯分析的運算要求。這就要求我們對關聯算法的具體定制和完善,進行研究和創新。3.3技術、實驗條件

如果采用傳統的數據庫進行海量數據的存儲、并在其基礎上進行查詢分析操作時,會出現檢索速度慢以及不易擴展的問題,提出基于GP的分布式存儲模型(如圖所示)。

Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部數據源并行裝載或導出Master 節點Network Interconnect

圖1.1 GP的系統結構

采用成熟的商用并行數據庫平臺Greenplum作為本項目的主要數據庫和分析挖掘運算環境。該系統是基于postgreSQL發展的商業系統,特點是采用一組分布式多節點服務器組成并行運算結構,特別適合進行頻繁的高密度表關聯計算。

系統平臺的基本配置是一個核心管理服務器管理一組運算節點單元服務器,運算節點單元服務器可以根據數據量和運算要求的增長擴容。目前實驗室提供的環境可以存儲大約2億條數據,由于運算過程中需要產生大量的中間結果,因此推測可以對大約100萬條保險客戶和業務數據進行分析。3.4 預計目標

(1)適用于本地壽險行業的精準營銷分析方法,能夠用一種以上方法對客戶進行精確分類,并根據分類屬性確定保險產品的關聯選擇度,以指導保險行業提升客戶價值; 基于保險數據的挖掘處理方法以及增量挖掘問題的處理方法

(2)在核心期刊上發表1-2篇論文

全日制工學(工程)碩士學位論文開題報告

4研究方案及進度安排,預期達到的目標

2014年 9月 1日——2014年10月30日:調研、準備開題

2014年11月1日——2014年11月30日:去保險企業搜集數據,分析其數據特點,實驗方案再論證

2014年12月1日——2015年1月15日:建立模型與建立實驗環境

2015年2月10日——2015年5月30日:編碼、收集與分析實驗數據,完成一篇論文 2015年 6月1日——2015年 9月10日:進一步的對精準營銷系統進行優化 2015年 9月11日——2015年11月30日:碩士論文編寫 2015年12月1日——2015年 12月31日:碩士論文答辯

第四篇:數據挖掘在房地產營銷中的應用

文章摘要:信息資源的分析、整合在房地產行業的競爭中起著越來越重要的作用。數據挖掘作為一種系統地檢查和理解大量數據的工具,能有效地幫助房地產企業從不斷積累與更新的數據中提取有價值的信息。因此,數據挖掘被引入到房地產市場研究領域,并日益受到重視。本文從數據挖掘在房地產行業中的市場研究價值入手,分析了數據挖掘在房地產市場研究尤其是客戶信息中的應用,并加以舉例說明。關鍵詞:數據挖掘 關聯分析 分類

一、房地產行業需要數據挖掘技術的支持

隨著房地產行業競爭的加劇,房地產企業要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業擁有大量的數據積累,包括行業信息、經濟環境信息、客戶信息等。這些數據是房地產企業市場運作的重要參考。面對快速增長的海量數據收集,企業需要有力的數據分析工具將“豐富的數據”轉換成“有價值的知識”,否則大量的數據將成為“數據豐富,但信息貧乏”的“數據墳墓”。

數據挖掘(Data Mining)是從大量數據中發現潛在關聯、模式,做出預測性分析的有效工具,它是現有的一些人工智能、統計學等技術在數據庫領域中的應用。應用數據挖掘有助于發現業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出解決問題所需要的關鍵因素,使企業處于更有利的競爭位置。

二、數據挖掘在房地產行業的應用

1.數據挖掘的概念

對于企業的海量信息存儲,數據挖掘是一種系統地檢查和理解大量數據的工具。數據挖掘根據預定義的商業目標,對大量的企業數據進行探索和分析,揭示其中隱含的商業規律,并進一步生成相應的分析、預測模型。

數據挖掘發現的是以前未知的、可理解的、可執行的信息,所以也被稱為“知識發現”(Knowledge Discovery in Databases)。與統計分析技術相比,數據挖掘技術能很好地和數據庫技術相結合,而且數據挖掘工具用以發現數據中隱含的商業規律的方法已不局限于統計技術,還包括神經網絡、遺傳算法、自組織圖、神經模糊系統等統計學科以外的方法。數據挖掘發現的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統計分析師的背景知識,再被統計分析師應用到數據分析中。

數據挖掘任務一般可以分兩類:描述和預測。描述性挖掘任務刻劃數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,以進行預測。具體來講,數據挖掘主要用于解決以下幾種不同事情:

(1)關聯分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一事件中出現的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。

(2)分類(Classification)和預測(Prediction)。分類根據某種標準將數據庫記錄分類到許多預先定義好的類別中。例如,將房地產企業客戶根據消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業、家庭構成等個人屬性,預測他們在購房支出;如將房地產企業客戶分為潛在客戶、購買者和實際客戶。分類系統可以產生這樣的規則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業務訪問,那么他/她是一個購買者。”

(3)聚類(Clustering)是把整個數據庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數據盡量相似。聚類與分類不同:分類之前已經知道要把數據分成哪幾類,每個類的性質是什么;聚類則恰恰相反。

(4)演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發展趨勢、社會經濟發展趨勢進行房地產消費趨向的分析。

(5)描述和可視化(Description and Visualization),對數據進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區域的形象化描述。

2.數據挖掘的市場研究價值

數據挖掘技術在商業上實際應用十分豐富。應用數據挖掘技術,可以幫助房地產行業找出有價值的信息,十分有助于企業發現商機、制定開發計劃與營銷策略。對于房地產市場研究,數據挖掘可以應用于宏觀經濟形勢研究、市場發展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:

(1)宏觀經濟形勢研究——1)房地產周期時序分析中的相似搜索:可找出已有房地產周期數據庫中與給定查詢序列最接近的數據序列。比較識別兩個相似時間段間數據系列的主要差異,對房地產市場的宏觀分析很有參考價值。2)宏觀經濟形勢研究——房地產周期一般性因素關聯分析:一般而言,房地產周期是影響不動產收益的一系列因素組成的總體概念。各因素均會對總體房地產周期起決定作用。關聯分析方法可用于幫助發現各因素和房地產周期間的交叉與聯系。

(2)市場發展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團購買房地產比重的擬合與分析;3)對房地產銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發展水平等動態的分析、總結和評價,及時獲得準確數據,輔助經營決策。

(3)樓盤供應研究——地理發展空間的多維分析:綜合人口住房條件及分布、土地利用現狀及政府規劃、交通現狀分布信息,通過聚集及層次化描述,發掘區域內需建立的高檔別墅、高、中、低檔公寓的數量及各自的地理位置和發展計劃。

(4)客戶研究——客戶信息的多維關聯和序列模式分析:關聯分析可在客戶信息中發現客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。

目前,專業市場研究公司對房地產行業的調研主要集中在客戶需求分析方面,并積累了一定的經驗,因此,本文主要探討房地產客戶信息的數據挖掘。

3.數據挖掘在房地產客戶研究中有著廣泛的應用

房地產行業的客戶信息有許多特點,如下圖所示,一方面房地產行業面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。

對于復雜、多樣而且擅變的客戶信息,房地產行業客戶信息的數據挖掘有助于識別客戶購買行為,發現客戶購買模式和趨勢。從而,幫助房地產企業改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業成本。根據已有的數據挖掘經驗,數據挖掘在房地產行業的應用可以歸納成以下幾個方面:

4.明確商業目標

三、如何在房地產行業應用數據挖掘技術

應用數據挖掘的首要任務就是明確需要達到什么樣的商業目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測數據挖掘效果,判斷建立的模型的有效性。例如,下列目標是大而空的目標:獲得客戶行為的了解;在數據中發現有用的模型;發現一些有意思得東西。而另外一些目標有較強操作性:發現哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。

5.數據準備

基于數據挖掘的商業目標,提取所需要的數據。為了保證數據的質量,除了對數據進行必要地檢查和修正外,還需要考慮不同源之間數據的一致性問題。

如果數據集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當的減少輸入的字段。常用的方法包括:“描述型數據挖掘”、連結分析等。

很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數據。因此,在數據準備階段需考慮是否創建一些新的變量。

處理缺失數據也是數據準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。

6.建立模型

建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發對數據的理解并加以修改,甚至改變最初對問題的定義。

一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數據的預處理工作。例如,神經網絡需要做數據轉換,有些數據挖掘工具可能對輸入數據的格式有特定的限制等。

接下來是建立模型的工作。對于通過數據挖掘建立的模型需要有一定的數據來測試和驗證。對于預測性任務,需通過反復的測試、驗證、訓練,才能不斷提高模型的準確率。

大部分數據挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經網絡既可以用于建立分類樹,也可建立回歸樹。

7.輸出結果的評價和解釋

模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數據的不同發生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。

直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意后再向大范圍推廣。

8.實施

模型在建立并經驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數據庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。

在應用模型之后,還要不斷監控模型的效果。即使模型的運用很成功,也不能放棄監控。因為事物在不斷發展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。

四、應用舉例:基于客戶分類的關聯分析

1.商業目標

為了更詳盡地了解客戶的消費決策,本案例設計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結果可以被用于預測性分析,例如預測客戶最傾向于做出哪種購買行為。2.數據準備

本案例中采用某一時點上的房地產消費者需求抽樣調查,取出描述消費者個人屬性和消費特點的字段。

3.建立模型

(1)對數據進行分類

本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。

案例得到的抽樣數據顯示,盡管地理位置是影響一個房地產項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關注程度為分類標準,構建了一個簡單的決策樹。決策樹中根據購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關型五種類型。下表是應用決策樹得到的客戶分類結果。從各客戶群評分的均值和標準差可以看出,各客戶群具有較好的組內相似性和組間差異性,說明所構建的決策樹的分類結果比較理想,可用于進一步的分析。

(2)關聯分析運用關聯分析的目的是尋找數據庫中值的相關性。本例采用基于興趣度的關聯規則挖掘算法,挖掘每類客戶不同屬性間的相關性。經過挖掘,發現一些值得深入探討的關聯,見下表:

注:a)支持率反映了關聯是否是普遍存在的規律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關聯規則描述。

b)可信度反映了關聯規則前提成立的條件下結果成例的概率。本例中,可信度=15%可以解釋為,對應的客戶群中有15個人符合關聯規則的描述。

c)興趣度反映了關聯規則中元素的關系的密切程度。興趣度越大于1說明該規則中的元素的關系越密切,該規則的實際利用價值越大。

d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領域專家設定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。

上表中列出的關聯規則均有較高的支持率、可信度和興趣度。為了更加準確地挖掘關聯規則。對挖掘出的關聯規則更換因果關系,形成新的關聯規則與之進行對比。如下例:

關聯規則A1:地理位置無關型客戶=≥重視物業管理

支持率=9.7% 可信度=30.3% 興趣度=2.4與

關聯規則B1:重視物業管理 =≥地理位置無關型客戶

支持率=9.7% 可信度=76.9% 興趣度=2.4

對比兩個關聯規則將發現,“重視物業管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業管理”的可能性(30.3%)。說明關聯規則B1:重視物業管理=≥地理位置無關型客戶是一條更有意義的關聯規則。

其他被發掘的關聯也可以通過類似的比較,進行深一步的挖掘。在此不再全部做出詳細分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業經驗進行統計分析,往往會因為分析人員的主觀性或者數據量太大難以實施而存在信息提取的局限性。而通過數據挖掘得到的信息,一方面能彌補直接應用統計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業背景知識;另一方面可以通過反復的驗證、機器學習建立模型,直接成為分析人員的分析、預測的工具。

需要說明:

a)本案例的目的在于說明數據挖掘算法的應用價值,得到的結果僅供參考,并不作為定論,而且數據挖掘的結果需要由行業內的商業分析人員判斷:是否真的具有意義,是否有進一步分析、探討的價值。也就是說數據挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業內商業分析人員的分析工作。

b)案例中的數據挖掘作為方法應用的探討,如要生成一個可操作的模型工具還需足夠的數據集支持進行測試、驗證、訓練才能不斷提高模型的準確率。

c)本案例中解決問題的方法不是唯一的,可能應用其他的分類手段、分類標準能得到更好的結果。具體方法的應用要取決于實施人員的建模能力、行業經驗。也就是說,數據挖掘對人員有較高的要求。數據挖掘的人員不僅要有良好的統計概念、建模能力,還要懂得基本的商業和行業概念。

五、房地產行業數據挖掘的應用前景

隨著IT/Internet等新技術發展,市場研究在房地產行業的應用已經不再局限于數據采集和簡單的歸納、數據分析。更高的決策服務是建立在更大量的“數據——信息——知識”的基礎上的,因此數據挖掘、商業智能等概念與技術的引入促進了數據挖掘在房地產行業的應用。與此同時,隨著房地產企業數據挖掘應用的深入,數據、數據挖掘的任務和數據挖掘方法的多樣性將給數據挖掘提出了許多挑戰性的課題。例如:

1、應用地理信息系統(GIS)尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互。

2、web挖掘:由于web上存在大量信息,隨著web的發展,有關web內容挖掘、web日志挖掘等網絡上的數據挖掘將成為數據挖掘中一個最為重要和繁榮的應用領域。房地產公司的企業形象宣傳、營銷、客戶維護等工作都將離不開網絡,也必然將需要web挖掘數據支持。

第五篇:網對網和Web數據挖掘在搜索引擎中的運用論文

摘 要:當今網絡信息技術日益發展,傳統意義上的搜索引擎更加難以滿足廣大用戶日益增長的信息檢索需求。在這種趨勢下,智能技術在搜索引擎中的應用顯得越來越重要。只有將智能技術引進搜索引擎,才能提高用戶的工作效率,滿足人們日益增長的客觀需求。主要介紹了如今搜索引擎的幾大分類,傳統搜索引擎需要改進的不足以及兩大智能技術在搜索引擎中的應用。在智能技術將會更加智能更加發達的未來,搜索引擎也將不斷地更新和發展,為人們提供更加高效的搜索體驗。

關鍵詞:智能技術;搜索引擎;網對網技術;數據挖掘。

搜索引擎是根據一定的策略,運用特定的計算機程序來搜索互聯網上的信息,在對信息進行組織和處理后,將處理后的結果顯示給用戶,是為用戶提供檢索服務的系統。而智能技術在搜索引擎中的實際應用也越來越廣泛,不斷有新興的智能技術,搜索引擎也不斷地結合這些智能技術來進行自身的變革和發展。這是一個漸進的過程。本文將詳細介紹 2 種智能技術在搜索引擎中的應用。

1.搜索引擎的分類。

搜索引擎可分為以下 3 類:①全文搜索引擎。全文搜索引擎是最標準的搜索引擎,國外的主要代表是 Google,而國內的主要代表則是百度。全文搜索引擎的主要原理是在互聯網中檢索與所查目標相匹配的內容,繼而建立數據庫,按序排列并且將其展示給用戶。②目錄搜索引擎。從本質來說,目錄搜索引擎其實不能算是真正的搜索引擎。只是將網站鏈接目錄分類,用戶并不需要輸入關鍵字,根據目錄就完全可以找到想要的信息。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用戶的搜索請求后,可以在各個搜索引擎上同時搜索,隨后將結果顯示給用戶。這一種搜索引擎的國內代表是搜星搜索引擎。

2.傳統搜索引擎相比網絡信息檢索的缺點。

傳統搜索引擎作為用戶在互聯網進行信息檢索的一個重要途徑,給廣大用戶提供了相當大的便利,隨著互聯網的迅速發展,用戶對搜索引擎又提出了搜索速度更快、搜索效率更高等諸多要求。正是用戶的這些需求刺激著搜索引擎的快速發展。傳統搜索引擎越來越滿足不了用戶的需求,主要存在以下幾點不足:①搜索引擎從互聯網搜索的各種網頁水準不一,存在著根本沒用或者暫時性的網頁。這嚴重加大了用戶檢索信息的困難程度,并且嚴重影響了檢索速度。②主流搜索引擎大多采用關鍵詞來檢索,由于用戶水平的差異,極少數可以總結出關鍵詞或關鍵詞組,以至于用戶搜索不到想要的內容,從而加大了檢索難度。③每個搜索引擎覆蓋的范圍雖然不小,但與龐大的互聯網相比,簡直是九牛一毛。④檢索的結果不準確、不唯一,搜索結果為零或者為數萬的情況時有發生。⑤不能智能搜索,難以滿足用戶深層次的需求。

3.智能技術的運用。

由于傳統引擎的各種缺點,用戶越來越渴望更好用、更便捷的搜索方式出現。在這種刺激下,智能技術在搜索引擎中的應用大量出現。這使得搜索引擎需具有一定的智能化和理解能力。當前主要有以下兩大智能技術。

3.1 網對網技術。

顧名思義,“網對網技術”就是網絡和網絡對應起來的意思。這其中又要提到兩個概念了,是兩個單詞。一個單詞我們都相當熟悉了--Internet.我們常說的互聯網,就是這個單詞。而在這里,這個單詞指的是一個信息網絡,也就是我們所說的網絡中的信息網。我們想要搜索什么東西時,將它輸入搜索引擎中,引擎就會在這個網絡庫中查找,找到相關信息,然后呈現在我們面前。而另一個詞可能就有一些陌生了--Innernet.表面上看起來與 Internet 很像,英文詞典中并沒有這個詞,我們在這里叫它“內聯網”.與看起來更像數據庫的 Internet 比起來,內聯網更像是人類大腦的一個信息網絡。這里面不僅僅有我們生活和工作中所用到的各種各樣的信息,更重要的是,信息之間繁雜又緊密的聯系。就像我們在生活中和他人交流,提到“小伙伴”這個詞,我們會想到其他與之有聯系的詞匯,比如“朋友”“同學”等。同樣的,當提到“師父”,我們的大腦也會迅速聯想到“師門”“師生”這樣的相關詞匯。我們所說的內聯網,它所著重的,也是信息與信息之間這樣息息相關的聯系。Internet 和 Innernet都是知識的網絡,互聯網時代的信息社會發展日新月異,因此無論是哪個網絡,其內的信息都是不斷變化著的。人們將這個技術運用在搜索引擎中,大大提高了搜索引擎的實用性。作為內聯網的 Innernet 和 Internet 聯結起來,運用信息之間存在的各種各樣的聯系,將用戶輸入搜索引擎中,將復雜的聯系正確分割開,然后各自拓展出一些對人們而言有用的信息,將 Internet 中龐大、雜亂的信息進行有序化的篩選和整理,最終將信息呈現在人們的眼前。這大大提高了搜索引擎的可操作性,縮短了人們不斷刪改語句來配合 Internet 的時間,自然也就提高了用戶的工作效率。

3.2 Web 數據挖掘技術。

數據挖掘作為一門交叉學科,其原理比較復雜,可以從龐大的數據中將更有用、更有新意的數據挖掘出來,而 Web 挖掘,便是將數據挖掘和 Web 發展聯系起來。Web 數據挖掘有 3 種不同的挖掘形式,即內容挖掘、結構挖掘和使用記錄的挖掘。

3.2.1 內容挖掘。

內容挖掘指的是從 Web 文檔中或是描述中挖掘,在網頁中進行數據挖掘,其中包括文本、超鏈接、圖像和視頻等,而半結構化的數據和無結構的文本便是主要的挖掘對象。

3.2.2 結構挖掘。

Web 結構挖掘則是通過網頁中的超鏈接,發現其中信息之間的結構及其緊密或稀疏的聯系。在平時上網時,我們只能看到一個個的網頁,打開瀏覽或者關閉。但是在這些頁面的背后,其實隱藏著無數個結構鏈接。Web 數據挖掘就能夠通過這些結構上的鏈接,發現頁面與頁面、數據與數據之間的聯系,隨后對它們分類,以便為用戶提供含有相似信息的更多頁面,幫助用戶完善自己想要在搜索引擎中得到的信息。

3.2.3 使用記錄的挖掘。

與前兩者相比,Web 使用記錄的挖掘讓我們感覺更加熟悉,至少“使用記錄”4 個字是我們上網過程中能夠看到的。當我們點擊一下搜索引擎的輸入框想要輸入文本時,搜索引擎會自動下拉出我們前幾次使用時所查詢的內容,以便我們重復查看相似內容的信息。搜索引擎有時也會為我們推薦一些內容的信息。這些信息也會是我們所感興趣的一些內容,是搜索引擎結合了我們之前的使用記錄,為我們提供感興趣的相類似的內容。這些都是 Web 使用記錄挖掘在搜索引擎中的實用例子,但并不是全部。搜索引擎會從用戶的訪問痕跡中挖掘出很多有意義的數據,包括數據端、服務器端和代理端的數據。而其獲得這些數據的途徑又分為 KDD 和專業化追蹤。這些方法和深度的挖掘,使搜索引擎更加“智能”地了解用戶的興趣和需要。

4.總結。

搜索引擎是我們工作、學習和生活中必不可少的實用性技術,正如一個調查中所顯示的,85%的人都是通過搜索引擎獲取到他們所需要的信息和所喜愛的網站,可見搜索引擎的重要性。隨著智能技術的不斷更新,人們的生活變得越來越智能,對搜索引擎的要求也會隨之越來越高,因此不斷利用新的技術完善和提高搜索引擎的智能性,是用戶的選擇,也是時代的選擇,是搜索引擎在現在和未來的發展中必然的趨勢,且將一直持續下去。

參考文獻:

[1]陳勇躍,張玉峰。智能技術在搜索引擎中的應用[J].情報雜志,2004(02):2-3,6.[2]楊占華,楊燕。數據挖掘在智能搜索引擎中的應用[J].微計算機信息,2006(12):244-246.[3]朱素媛,馬溪俊,梁昌勇。人工智能技術在搜索引擎中的應用[J].合肥工業大學學報(自然科學版),2003(S1):657-661.

下載基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘word格式文檔
下載基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

主站蜘蛛池模板: 国产在线精品一区二区不卡顿| 夹得好湿真拔不出来了动态图| 波多野结衣乳巨码无在线观看| 欧美老肥妇多毛xxxxx| 亚洲人成人无码网www电影首页| 伊伊人成亚洲综合人网香| 最新av中文字幕无码专区| 国产麻豆精品一区二区三区v视界| 国产日产欧产精品精品蜜芽| 亚洲第一天堂无码专区| 欧美性猛交xxxx免费视频软件| 欧美白人最猛性xxxxx| 久久精品无码免费不卡| 天天爱天天做天天做天天吃中文| 美女mm131午夜福利在线| 国内自拍视频一区二区三区| 国产激情综合在线观看| 色avav色av爱avav亚洲色拍| 精品国品一二三产品区别在线观看| 日本欧美视频在线观看| 国产又黄又硬又粗| 日本成熟少妇喷浆视频| 国产乱子伦精品免费无码专区| 亚洲男人av天堂午夜在| 丰满少妇高潮惨叫久久久| 无码国产福利av私拍| www.一区二区三区在线 | 中国| 苍井空一区二区波多野结衣av| 香蕉成人伊视频在线观看| 亚洲欧美不卡视频在线播放| 亚洲精品无码人妻无码| 成人网站免费在线观看| 国产成_人_综合_亚洲_国产| 在线亚洲日产一区二区| 国产三级久久精品三级| 久久经精品久久精品免费观看| julia无码中文字幕一区| 亚洲精品专区成人网站| 亚洲精品成人网站在线| 无码永久成人免费视频| 乱人伦视频中文字幕|