久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

數據服務 電子科技大學:一體化大數據提供師生精準畫像

時間:2019-05-13 03:00:53下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《數據服務 電子科技大學:一體化大數據提供師生精準畫像》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《數據服務 電子科技大學:一體化大數據提供師生精準畫像》。

第一篇:數據服務 電子科技大學:一體化大數據提供師生精準畫像

數據服務

電子科技大學:一體化大數據提供師生精準畫像

近年來,有部分國內高校開始了數據挖掘的探索。比如,浙江大學通過對資產的歸納、整理,最終形成權威、全面的資產數據,并提供數據查詢和分析服務。這些數據分析的結果能夠提高教室、實驗室等資源的利用率。復旦大學對特定群體的學生進行數據分析,發現了來自不同區域、不同背景學生成績的顯著差異性。清華大學開展了對優秀學生成長追蹤,觀察成長路徑的研究。以上可以看出,雖然這些高校已經開始通過簡單統計和相關分析進行數據挖掘,但是這些數據沒有完全打通并協同分析,而且分析缺乏深度性和廣度性。

針對這些智慧校園建設的不足,電子科技大學利用大數據技術,研究設計了統一的校園大數據分析決策平臺,并首次提出教育大數據一體化平臺的概念。

該平臺不僅可以自動化地接入來自于校內的業務系統數據、資源使用數據、網絡日志數據,而且能夠接入來自于校外的互聯網數據。在數據治理和隱私保護之后,進行數據的標準化,存放在數據中心,同時通過應用程序接口的方式,進行數據認證式的共享,成功地解決了全校各個管理服務系統分割獨立,數據共享困難的問題。

更突出的是一體化平臺中的計算中心周期性地調用數據接口,進行包括掛科預警、貧困生挖掘等的大數據分析與預測,將分析與預測的結果提供給最上層的各類應用服務。電子科技大學運用教育大數據一體化平臺提升高校管理服務水平和質量,既是一個集成不同部門、層次信息數據的系統性工程,又是一個面向世界一流大學創新管理服務體系。教育大數據一體化平臺體系架構教育大數據一體化平臺是數據整合、清洗與分析挖掘的開放平臺。教育大數據一體化平臺的架構如圖1所示,它由三大中心組成,分別為數據中心、應用中心和運維中心。

數據中心旨在打破數據孤島,以80%的通用性對接現有的校園業務系統,整合教務處、學生處、圖書館等部門的業務數據,同時對整合后的數據進行清洗、管理與隱私保護,形成標準化的校園數據。

應用中心不僅提供隱私化的數據認證接口與大數據算法服務,而且整合如學生畫像、教師畫像等多樣化的校園管理應用,并不斷橫向擴展,形成“一平臺、多應用”的服務體系。運維中心采集系統應用日志以及機器數據并為其建立索引,構建強有力的搜索、分析和可視化能力,以提供日常運維支持。

通過三大中心的協同工作,一體化平臺打破了學校各職能部門的數據孤島,不僅可以為校園師生提供便捷、高效、精準的個性化引導和服務,而且能為學校開展精準化、智能化師生服務提供總體解決方案。

基于該平臺,電子科技大學已開發了多項成熟的應用服務,如學生畫像、精準資助、失聯告警、教師畫像、科研探索、財務評估等系統。本文將以“學生畫像”系統和“教師畫像”系統為例介紹教育大數據一體化平臺的應用創新。學生畫像:讓學生得到精準的幫助學生畫像利用數據中心提供的標準化行為與內容數據,包括課程成績、圖書館借閱、一卡通消費等,運用大數據分析手段,量化學生在規律性、努力程度、學習技能、經濟狀況、社交關系等多維度的特性,揭示學生成長軌跡,基于預測模型對學生的學業成績、就業傾向、心理狀況等進行預測,從而可以為學校對學生進行個性化與精準化的教育管理與引導提供重要依據。下面針對以下幾個方面進行進一步闡述。1學業成績預測成績特別好、特別差和成績突變的學生是教育者最關心的人群。直觀地說,學生成績和他們的基礎知識掌握情況有密切關系。特別地,基礎知識的掌握好壞可以影響到學生在相關課程中的成績。

為此,借助以往課程成績信息,基于矩陣分解的降維技術,分析學生對具體基礎知識的掌握程度,并獲得每門課程所含有的知識體系?;谶@些信息,該系統不僅可以預測出每個學生在其他課程的得分,也可以預測出這個學生在其他課程的掛科可能性。這個算法背后的思想是通過分析課程之間在知識體系上的相關性來進行成績預測或者掛科預測。比如某學生在以往課程中曾修過微積分Ⅰ但成績不好而且掛科了,那么當他在修讀微積分Ⅱ的時候,預警系統就會預警該學生的掛科可能性比較大,提示教育者及早發現問題并進行干預,盡可能避免掛科問題。因而,掛科預警實現了從后置性應急管理轉變為前置性預警引導。

由于課程成績數據更新頻率低,掛科預警無法實時更新預測結果。然而,根據我們研究發現,學生成績也和自身的學習以及生活行為習慣特性密切相關。學生在校園內的行為習慣的變化是可以實時監測的,對于預測成績的變化特別有價值,所以為實時地預測學生成績提供可能。該學業成績預測系統借助了兩個影響成績最顯著的行為特性:努力程度和生活規律性對學生進行刻畫。用學生去教學樓打水、出入圖書館的次數度量其努力程度。該次數可以反映學生上自習或者上課的頻率,間接反映了學生花在學習上的時間。因而,去教學樓打水次數高的學生、頻繁去圖書館的同學成績較好。用學生出入宿舍、吃早飯、洗澡等行為習慣數據衡量其生活規律性。生活規律性與心理學中大五人格中的盡責性密切相關,而心理學的研究表明,盡責性高的學生,表現為自律、細心、有條理性,有更好的學習成績。因而為研究行為規律性和成績的相關性提供了理論支持。在實證研究中,我們發現,按時吃早餐的學生往往會顯出更好的成績。這背后的原因可能是早飯進餐這個事件在個體層面具有很強的隨意性,因而對個體的自律與自控能力有較高的要求。除了努力程度和生活規律性這兩個指標外,學生的圖書借閱歷史也和成績密切相關。因為借閱的圖書可以反映出學生的興趣愛好,不同的興趣愛好會對成績有不同的影響。研究發現成績好的學生借閱專業方向的進階讀物,而成績差的同學喜歡借閱諸如小說的各類課外讀物。此外,量化了每本書和成績的相關性,使得可以更加精準地進行圖書推薦。最后,基于努力程度、生活規律性、基礎知識以及興趣愛好這些特性,設計多任務遷移學習算法來進行未來成績的預測。該算法不僅通過多任務特性考慮了特征相關性在學院之間的差異性,而且還通過遷移學習特點考慮了不同學期之間相關性的變化。得出學生的成績預測分析,能很好地反映出學生成績的未來走勢。

2職業傾向預測數據分析發現學生家庭經濟狀況、技能掌握情況、興趣愛好是影響學生就業去向的關鍵因子。家庭經濟狀況主要通過分析學生消費數據,建立起消費數據時間序列,度量消費的波動性、周期性與沖動性等。通過分析學生的課程成績,判斷出學生所掌握的專業技能來預測職業選擇。

最后,不同職業傾向的人的圖書借閱偏好會表現出較大差別,如考研的學生往往傾向于數學等考研科目的書,出國的學生則對外國文學和歷史、雅思和托福類書籍情有獨鐘。通過對以上三類數據的收集、分析和挖掘,就能很好地對學生未來就業傾向進行精準的預測,有利于就業指導教師為畢業生提供個性化的就業引導。

3社交網絡構建與挖掘社交網絡的構建是通過分析學生之間校園行為軌跡相似性來實現的,特別是統計學生在地點共現(短時間內出現在同一地點)的頻率,分析共現的顯著性。同時通過大數據的挖掘與分析,給不同個體賦上獨特屬性標簽,如專業、性別、民族等,并以此分析出其個性化的社交需求,對其社交圈進行刻畫。以此為其定制與之適應的社交網絡推薦與信息推送服務,并將個體數據分析結果展現給學校學生管理工作者為其提供更好的管理工作參考。系統為學生匹配有相同行為習慣及興趣愛好的個體與其建立社交關系,以此構建具有共同文化認可的社交群體,更好地服務于學生個體的社會交往需要,對學生成長起到良性正面的促進作用。

4精準資助認定準確定位扶助對象是實施“精準扶貧”管理服務的前提,客觀、動態和多維度大數據整合庫,是實施“精準扶貧”的基礎。對貧困生判定的影響因子主要有以下幾類:(1)學生家庭信息,包括學生家庭成員組成、家庭成員就職單位、成員學歷、家庭年收入、負債金額等基本家庭信息。(2)歷史資助信息,收集學生以往獲得的資助信息,為其建立基礎的數據庫,以便于查詢學生是否獲得資助、資助金額以及經濟困難情況。(3)在校一卡通消費數據特征,包括一卡通平均單次消費金額、單次充值金額及充值間隔、月消費總額、逐月消費變化趨勢、消費時間段規律等。國內某大學就是利用這方面數據判別貧困生,將1個月消費次數在60次以上,月消費金額在200元以下的學生認定為貧困生。這種單一的判別方式誤差會很大,影響判定貧困生的因素很多,應該綜合考慮。(4)資助獲得后消費習慣改變的數據信息,如在獲得資助之后出現沖動消費及大額消費的數據信息。(5)他人的客觀評價,收集來自于輔導員及周圍同學日常評價并轉換為量化數據。通過對以上數據的收集和處理分析,構建起家庭經濟困難學生專項大數據庫,在大數據分析的基礎上,建立起經濟困難學生精準識別系統如圖2所示。它可以實現兩個主要功能:一是識別虛假貧困生,能夠有效識別家庭情況較好的學生申報貧困生冒領國家資助的現象,對于這類學生取消其資助資格并降低其信用評級;二是發現潛在貧困生,個別家庭貧困學生由于自尊心較強等因素,往往不主動申請資助,使得這類學生難以通過傳統的方式來發現。現在通過精準資助識別系統,能迅速地發現此類學生,采取發放隱性補助的方式進行幫扶(如每月定時向其銀行卡中轉入一定數額資金),以及實施動態補助等方式,很好地幫助困難資助管理工作者對學生資助信息實施動態管理。通過以上流程構建起數據收集、存儲、分析和數據挖掘為一體的大數據精準篩選、甄別和定位系統,客觀公正且及時、動態和準確地識別校園亟待資助和扶助對象。

同時建立學生網絡誠信檔案體系,堅持精準資助與誠信教育結合,核實學生資助申請材料并將其轉化為大數據記錄,將申請資助過程中的不誠信行為記入學生誠信檔案并做好大數據標識,為管理者切實做好精準資助工作提供有力的技術支持。該精準獎助識別系統已經在電子科技大學等高校推廣應用,取得了很好的應用效果。

教師畫像:為教師學術發展提供信息“教師畫像”系統是通過打通校園管理層面不同業務系統之間的數據孤島,實現以教師為主體的數據挖掘,對教師個體及群體的人事信息、科研項目、學科成果及教學狀況進行精準刻畫,服務于高校人事、科研管理的數據支撐系統。

它具有三大優勢,一,全面:建立各門類數據橋梁,全盤掌握學校的人事、科研、教學現狀;二,高效:打通數據流通渠道,實現信息聚合,提高數據匯總效率;三,前瞻:挖掘數據相關性,發現數據潛在價值,為管理者提供決策依據。“教師畫像”系統應用方案如圖3所示,它首先整合校內外數據,內部數據包括高校自身產生的項目、人員、經費、設備等數據信息;外部數據包括各大公開的科研成果數據庫,以及各大知名高校的科研人才數據等。然后對這些數據進行清洗、轉換、重構提取有效信息并將提取后的信息存入數據倉庫;使用關聯分析技術對科研管理系統、財務系統、人事系統以及基于互聯網的大型科技文獻數據庫、專利庫等數據資源進行關聯分析,找出數據的相關性,提取有價值的信息。將提取的信息應用在教師工作評估、教師成長軌跡分析、高質量人才引進建議、學科前沿研究方向探索、科技評價方法完善等服務上,為解決高校人事管理工作兩大核心問題“外引”、“內培”提供建設性意見,為傳統的專家定性決策管理提供廣泛的、深入的數據支持。該畫像系統的主要應用表現在以下幾個方面: 1.教師工作績效自動評估

教師工作績效自動評估系統通過整合人事、科研、財務、教學等多門類數據信息,采用教師經費效益、經費使用情況、成果影響力、成果轉化、同行意見等多維度的評價因素,并支持不同單位結合各單位的實際情況調整評價模型,全方面呈現教師在科研和教學工作的成績,從而為教師的入職、晉升、聘任、培訓和獎懲提供定量化決策依據。避免了傳統教師績效評估受到的人為因素影響,使得評估結果更加客觀、準確。2.工作軌跡評估

傳統的教師發展研究主要停留在經驗層面,傳統的教師信息系統只能看到單一的信息,而“教師畫像”是利用大數據刻畫教師,基于教師基礎信息數據(包括學習經歷、海外經歷、工作經歷、崗位聘任經歷、科研項目、學科成果等),圍繞教師職業素養、專業知識、專業能力、工作績效等多方面構建教師成長軌跡,并分析影響教師的發展因素,從而制定個性化成長方案,如預測發表論文數量、能否入選人才計劃、優秀青年教師等。尋求適合教師的個性化發展路線,引導教師可持續發展,實現教師個人與學校發展的“雙贏”。3.學術圈層研究

搜集學術、社交網絡等多門類廣泛的數據,如搜索每個文章的合作者,構建合作者網絡,挖掘隱藏其中的人才關系。實現以人才為中心的數據整合,構建各學科的學術圈層網絡。利用該網絡一方面可以為校內教師尋找幫助自己提升的外部老師,另一方面挖掘有潛力的學術新星,幫助高校人事部門有針對性地獲悉人才有效信息,成功獵取高質量人才。4.科研熱點

科研工作不能閉門造車,及時掌握時下國內外的科研熱點及難點,結合自身能力與學科特點進行有效的科研工作對于科研工作者至關重要。而在海量數據中分析當下學科研究的熱點及前沿,單憑人力是很難做到的,需要借助于大數據分析技術。科研熱點分析首先收集國內外論文數據庫、專利申報及項目審批等科研熱點數據信息,再對過濾后的海量數據利用大數據算法進行挖掘分析,最后有效預測科研熱點,并結合高校學科建設現狀與特點,分析各學科前沿研究方向。為科研工作者的科研工作提供有力的科研數據支撐,為其選定符合自身學科特點的科研發展方向提供有效建議,幫助其有效定位自身科研工作努力方向及深度。

目前,一場以云計算、大數據、物聯網、移動應用、智能控制技術為核心的“新IT”浪潮風起云涌。大數據技術在教育領域的廣泛應用,必將催生教育領域的深刻變革。對此,電子科技大學抓住機遇,迎接挑戰,利用大數據技術開創性地構建了教育大數據一體化平臺,基于此平臺創新性地分別開發了服務于學生和教師的“學生畫像”和“教師畫像”系統。利用“學生畫像”系統提供了精準預測學生成績,就業傾向預測和指導,助力學生精準資助等個性化、精準化的管理服務;利用“教師畫像”系統提供教師工作評估、教師成長軌跡分析、高質量人才引進建議、學科前沿研究方向探索、科技評價方法完善等服務。作者:呂紅胤 于晨陽 蘇涵 連德富 顏凱

第二篇:基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘

基于Spark的大數據精準營銷中搜狗搜索引擎的用戶畫像挖掘

近期參加了CCF舉辦的“大數據精準營銷中搜狗用戶畫像挖掘”競賽,最終得到復賽第32名。正好這學期《機器學習與數據挖掘》課程需要一個實驗報告的大作業,于是就那它來寫了。本博文會在這幾周不斷的完善更新ing

1.選題背景與意義

1.1 用戶畫像與精準營銷

“用戶畫像”是近幾年誕生的名詞。很多營銷項目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫像。在以前,大多媒體會針對自身用戶做一個分類,但是有了大數據后,企業及消費者行為帶來一系列改變與重塑,通過用戶畫像可以更加擬人化的描述用戶特點。

用戶畫像,即用戶信息標簽化,就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之后,完美地抽象出一個用戶的商業全貌,可以看作是企業應用大數據技術的基本方式。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

消費方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說,基于用戶畫像上的精準營銷不管對企業還是對用戶來說,都是有需求的,這會給雙方交易帶來極大便捷,也為雙方平等溝通搭建了一個暢通平臺。

1.2 搜索引擎下用戶畫像的挑戰

在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動性、查詢的實時性等,帶來了與企業傳統的對用戶信息進行收集與分析有著巨大的不同、更加艱巨的挑戰。

例如,我們實時獲取到的是用戶的查詢語句,而由于用戶的流動性,并不能直接獲取到如年齡、性別、學歷等用戶的標簽信息。這么一來,也就無法根據用戶屬性對用戶進行分群處理,而后再通過推薦系統進行產品上的優化

1.3 本文內容概要

本文內容概要如下:

第1章:簡介用戶畫像與搜索引擎下用戶畫像的精準營銷的挑戰。第2章:說明實驗集群、數據與課題研究目標。

第3章:介紹使用分詞工具對用戶的搜索詞列進行分詞,以及相關的優化方案。第4章:介紹在分詞的基礎上,對文本進行特征的抽取與轉換,以及相關的優化方案。第5章:介紹在原始特征向量上,進行聚類與降維。第6章:介紹實驗中試驗過各分類模型 第7章:介紹模型參數調優

第8章:總結本課題研究中不足與展望后續的優化方案 第9章:參考文獻 2.課題實驗準備

2.1 Spark集群

節點 cdh01 cdh02 cdh03 cdh04 備注

8核,32G內存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 8核,12G內存,角色:Spark Worker,HDFS DataNode 2.2 數據集

數據文件 備注

Train.csv 帶標注的訓練集 Test.csv 測試集 2.3 數據介紹

本數據來源于搜狗搜索數據,ID經過加密,訓練集中人口屬性數據存在部分未知的情況(需要解決方案能夠考慮數據缺失對算法性能的影響)。數據所有字段如下表所示:

字段 ID age 說明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲

Gender 0:未知1:男性2:女性

Education 0:未知學歷;1:博士;2:碩士;3:大學生;4:高中;5:初中;6:小學 Query List 搜索詞列表 2.4 數據示例

對于train.csv中的數據記錄:

00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務描述

根據提供的用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數據,通過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行判定。

3.查詢詞分詞

3.1 NLPIR

NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提??;張華平博士先后傾力打造十余年,內核升級10次。

全球用戶突破20萬,先后獲得了2010年錢偉長中文信息處理科學技術獎一等獎,2003年國際SIGHAN分詞大賽綜合第一名,2002年國內973評測綜合第一名。

我們傳入每個用戶的搜索詞列,表經過NLPIR分詞工具得到的分詞。之后,我們做個進一步的優化策略:

3.1.1 去停用詞

我們根據分詞后詞語所帶的詞性,對一些特征代表性不夠強的詞語進行過濾:

for(int i = 0;i < sbtmp.length();++i){

char cc = sbtmp.charAt(i);

if(cc == ' '){

sbtmp.deleteCharAt(i);

--i;

} else if(cc == '/'){

// 去詞條件

Boolean isdel =

// 1.去標點

(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')

// 2.疑問詞

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'

&& sbtmp.charAt(i + 2)== 'y')

// 3.數字

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')

// 4.連詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')

// 5.副詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')

// 6.嘆詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')

// 7.擬聲詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')

// 8.介詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')

// 9.量詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')

// 10.助詞

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')

// 11.純動詞

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'

&& sbtmp.charAt(i + 2)== ' ');

// 去詞

if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'

&& sbtmp.charAt(i + 1)!= 'h'

&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){

while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

while(i >= 0 && sbtmp.charAt(i)!= ','){

sbtmp.deleteCharAt(i);

--i;

}

}

// 若無需去詞,把‘/’轉為‘,’,并去除隨后的詞性標志

else {

sbtmp.setCharAt(i, ',');

while(sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

}

}

}

for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){

sbtmp.deleteCharAt(i);

--i;

}

// 去中間單個字

else if(sbtmp.charAt(i1);

sbtmp.deleteCharAt(i1] == Y[j1][j1][j];

//刪除X第i個字符

t1 = t1 < dp[i][j1];

//刪除Y第j個字符

t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同

dp[i][j] = t1 + 1;

這里我們所使用的優化方案為:

對整個訓練集和測試集的搜索詞列做分詞后的詞頻統計表

對每個用戶的搜索詞列分詞后的各個詞與詞頻統計表各詞(排除前者自身)進行編輯距離計算。得到詞頻統計表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個詞頻最高的詞將該詞替代。4.7 額外增加數據量

在大數據時代背景下,只要數據量足夠的大,反而我們所選用的不同的算法模型對最終的預測準確率的影響會變小,獲取更多數據會使模型更完善更準確。我們這里用不同方案所得到的分詞結果,人為的增加訓練集的數據。如將10萬條記錄的訓練集進行NLPIR分詞得到結果,與進行”結巴”提取關鍵詞得到的結果拼接,就將訓練集記錄人為的翻倍了。后續的分類實驗中證明了,使用該方案,在模型相同的情況下,相比原來會有1%左右的準確率的提升。

5.聚類與降維

2009年結束的Nexfix競賽表明,很多參數團隊用到的高等矩陣因子分解對模型提高預測準確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過這些屬性來描述用戶。20世紀80年代后期,利用潛在的”語義”屬性的思想被成功的應用于信息檢索領域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發現文檔中的潛在的屬性。[2]而本課題在實驗中會使用到LDA方法。

5.1 LDA

隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測主題)。甚至可以說LDA模型現在已經成為了主題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計模型的角度來說,我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型中生成的。也就是說 在主題模型中,主題表現為一系列相關的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現概率較高的單詞(參見下面的圖),這些單詞與這個主題有很強的相關性。這里寫圖片描述

LDA可以用來識別大規模文檔集或語料庫中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。

LDA可以被認為是如下的一個聚類過程:

各個主題(Topics)對應于各類的“質心”,每一篇文檔被視為數據集中的一個樣本。

主題和文檔都被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型)

與采用傳統聚類方法中采用距離公式來衡量不同的是,LDA使用一個基于統計模型的方程,而這個統計模型揭示出這些文檔都是怎么產生的。5.1.1 模型訓練

Spark API 參數介紹:

K:主題數量(或者說聚簇中心數量)

maxIterations:EM算法的最大迭代次數,設置足夠大的迭代次數非常重要,前期的迭代返回一些無用的(極其相似的)話題,但是繼續迭代多次后結果明顯改善。我們注意到這對EM算法尤其有效。,至少需要設置20次的迭代,50-100次是更合理的設置,取決于數據集。

docConcentration(Dirichlet分布的參數α):文檔在主題上分布的先驗參數(超參數α)。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。topicConcentration(Dirichlet分布的參數β):主題在單詞上的先驗分布參數。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設置。checkpointInterval:檢查點間隔。maxIterations很大的時候,檢查點可以幫助減少shuffle文件大小并且可以幫助故障恢復。

val lda=new LDA()

.setK(20)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(100)

val model=lda.fit(dataset_lpa)

5.1.2 模型評價

生成的model不僅存儲了推斷的主題,還包括模型的評價方法。模型的評價指標:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

用評價方法,在online 方法下,對setMaxIter進行調參:

for(i<-Array(5,10,20,40,60,120,200,500)){

val lda=new LDA()

.setK(3)

.setTopicConcentration(3)

.setDocConcentration(3)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(i)

val model=lda.fit(dataset_lpa)

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

println(s“$i $ll”)

println(s“$i $lp”)}

可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數需要設置50次以上,才能收斂:

5.1.3 對語料的主題進行聚類

val topicsProb=model.transform(dataset_lpa)

topicsProb.select(“label”, “topicDistribution”)show(false)

/**

+-----++

|label|topicDistribution

|

+-----++

|0.0 |[0.***,0.***147,0.***77] |

|1.0 |[0.***3,0.***623,0.***]

|

|2.0 |[0.***7,0.***417,0.***]

|

...*/

label是文檔序號,文檔中各主題的權重,我們可以將該DataFrame帶入后續的分類器中,進行訓練。

5.1.4 其他聚類與降維

Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權重,以便于后續的分類。但是由于LDA在主題聚類上的典型性,我們的課題實驗只試驗了LDA的方案

下載數據服務 電子科技大學:一體化大數據提供師生精準畫像word格式文檔
下載數據服務 電子科技大學:一體化大數據提供師生精準畫像.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    主站蜘蛛池模板: 国产久免费热视频在线观看| 亚洲欧美日韩中文二区| 婷婷久久综合九色综合97最多收藏| 亚洲成a人无码av波多野| 国产欧美精品一区二区三区| 亚洲精品一区二区三区新线路| 亚洲狠亚洲狠亚洲狠狠狠| 亚洲精品久久片久久久久| 日韩人妻无码精品专区906188| 亚洲色成人网站www永久下载| 国产成人综合日韩精品无码不卡| 国产偷窥熟女精品视频大全| 亚洲狼人伊人中文字幕| 欧美黑人疯狂性受xxxxx喷水| 久久精品青青草原伊人| 亚洲熟妇无码八v在线播放| 欧美搡bbbbb搡bbbbb| 久久精品国产精品久久久| 亚洲 小说 欧美 激情 另类| 亚洲欧洲自拍拍偷精品网| 一区二区三区鲁丝不卡| 少妇高潮太爽了在线观看欧美| 国内少妇高潮嗷嗷叫在线播放| 亚洲欧美日韩综合久久久| 18分钟处破好疼哭视频在线观看| 中文在线а√天堂| 久久久无码视频| 亚洲图片综合图区20p| √天堂资源中文www| 国产精品久久久久7777按摩| 国产亚洲精品yxsp| 最爽无遮挡行房视频| 精品1卡二卡三卡四卡老狼| 亚洲一区二区三区无码久久| 国产成人综合久久久久久| 国产思思99re99在线观看| 久久国产福利播放| 国产成+人+综合+亚洲专区| 久久久橹橹橹久久久久| 亚洲精品伦理熟女国产一区二区| 精品97国产免费人成视频|