第一篇:數(shù)據(jù)分析課程感想
數(shù)據(jù)分析課程感想
——XXXX級(jí)XX學(xué)院XX班XXXXXXXXXXX 接觸數(shù)據(jù)分析是從大學(xué)的計(jì)算機(jī)課上開(kāi)始,但是了解得很少,于是在選修課上進(jìn)一步學(xué)習(xí)。通過(guò)學(xué)習(xí)我了解到數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)行動(dòng)。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。確實(shí)在課堂上我們也是主要通過(guò)看老師計(jì)算機(jī)數(shù)據(jù)分析軟件操作來(lái)學(xué)習(xí),所以可以知道計(jì)算機(jī)的應(yīng)用給數(shù)據(jù)分析帶來(lái)了新鮮血液,使得數(shù)據(jù)分析更具有操作性和實(shí)用性,在很大程度上方便了對(duì)大量數(shù)據(jù)進(jìn)行系統(tǒng)分析。
在課程上我們主要學(xué)習(xí)了運(yùn)用數(shù)據(jù)分析軟件進(jìn)行數(shù)據(jù)分析,比如插入表格,數(shù)據(jù)排列,數(shù)據(jù)分類(lèi)等等。通過(guò)這些學(xué)習(xí)首先我們掌握的是對(duì)OFFICE軟件的一些基礎(chǔ)應(yīng)用,比如合并單元格,插入各類(lèi)數(shù)據(jù)表格,對(duì)大量數(shù)據(jù)進(jìn)行快速排序等。這些技能不僅對(duì)于數(shù)據(jù)分析很有用,在以后的日常工作中,也可以幫助我們,因?yàn)樵诂F(xiàn)代社會(huì),熟練掌握計(jì)算機(jī)已經(jīng)是每個(gè)合格辦公人員的基本技能,而這些可以使我們繁重的文件數(shù)據(jù)處理工作更加輕松和得心應(yīng)手。
雖然在上課時(shí)看老師操作有時(shí)會(huì)覺(jué)得很難,但是一旦掌握會(huì)發(fā)現(xiàn)數(shù)據(jù)分析十分有用。在以后工作中,特別是營(yíng)銷(xiāo)工作中,可以發(fā)揮重要作用,比如,在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過(guò)程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過(guò)程,以提升有效性。一個(gè)企業(yè)的領(lǐng)導(dǎo)人要通過(guò)市場(chǎng)調(diào)查,分析所得數(shù)據(jù)以判定市場(chǎng)動(dòng)向,從而制定合適的生產(chǎn)及銷(xiāo)售計(jì)劃。而這些如果不使用數(shù)據(jù)分析,那么工作人員可能就要被掩埋在龐大而復(fù)雜的數(shù)據(jù)中了。尤其在如今大數(shù)據(jù)時(shí)代,行業(yè)領(lǐng)先企業(yè)都充分利用大數(shù)據(jù)分析,從而找到顧客偏好和新的營(yíng)銷(xiāo)熱點(diǎn),因此數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。
數(shù)據(jù)分析過(guò)程的主要活動(dòng)由識(shí)別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評(píng)價(jià)并改進(jìn)數(shù)據(jù)分析的有效性組成。以公司進(jìn)行顧客喜好數(shù)據(jù)分析為例。首先要確定收集哪些有效數(shù)據(jù),比如顧客對(duì)產(chǎn)品的滿(mǎn)意度,顧客的年齡,然后是確定收集數(shù)據(jù)的途徑和實(shí)施方案。比如發(fā)放調(diào)查問(wèn)卷,開(kāi)展網(wǎng)上問(wèn)卷,電話(huà)訪問(wèn),信件郵寄,等等。之后是對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,這個(gè)環(huán)節(jié)就是我們課堂上主要學(xué)習(xí)的數(shù)據(jù)分析方法,比如對(duì)數(shù)據(jù)進(jìn)行分類(lèi)統(tǒng)計(jì)等。通過(guò)對(duì)數(shù)據(jù)的分析可以得出顧客對(duì)于產(chǎn)品的滿(mǎn)意度,和產(chǎn)品改進(jìn)方向,當(dāng)然在數(shù)據(jù)分析過(guò)程中也許因?yàn)槟P瓦x擇和操作問(wèn)題等出現(xiàn)數(shù)據(jù)分析偏差,所以最后還要對(duì)數(shù)據(jù)分析過(guò)程和結(jié)果進(jìn)行評(píng)估和改進(jìn)完善。
數(shù)據(jù)分析對(duì)于工作和生活有很大的便利性和必要性,所以我會(huì)在以后的生活學(xué)習(xí)中多多留心,爭(zhēng)取掌握更多數(shù)據(jù)分析技能。
第二篇:市場(chǎng)營(yíng)銷(xiāo)數(shù)據(jù)分析課程大綱
市場(chǎng)營(yíng)銷(xiāo)數(shù)據(jù)分析課程大綱
一、營(yíng)銷(xiāo)分析的組織框架和技術(shù)框架
如何更好的進(jìn)行企業(yè)積累的大量營(yíng)銷(xiāo)數(shù)據(jù)的統(tǒng)計(jì)分析和挖掘工作?通過(guò)解析不同企業(yè)的數(shù)據(jù)應(yīng)用實(shí)踐,本節(jié)與您分享營(yíng)銷(xiāo)數(shù)據(jù)分析的總體框架應(yīng)如何搭建...1.從現(xiàn)有的數(shù)據(jù)能分析什么?
2.現(xiàn)存的報(bào)告機(jī)制存在哪些問(wèn)題
3.數(shù)據(jù)分析的技術(shù)架構(gòu)和組織架構(gòu)
4.實(shí)施營(yíng)銷(xiāo)數(shù)據(jù)分析思路和步驟
5.數(shù)據(jù)分析與挖掘技術(shù)簡(jiǎn)介
二、指標(biāo)分析
指標(biāo)分析是一種快速的企業(yè)績(jī)效分析手段,是衡量企業(yè)健康狀況的健康指標(biāo),本節(jié)介紹如何通過(guò)指標(biāo)構(gòu)建數(shù)據(jù)分析模型。
1.從一個(gè)績(jī)效考核表說(shuō)起
2.KPI的局限
3.搭建分析模型分析公司經(jīng)營(yíng)狀況
4.基于市場(chǎng)營(yíng)銷(xiāo)指標(biāo)的矩陣分析
5.利潤(rùn)分析矩陣
6.新產(chǎn)品分析矩陣
7.案例分析
三、數(shù)據(jù)規(guī)劃和數(shù)據(jù)收集
沒(méi)有數(shù)據(jù),營(yíng)銷(xiāo)分析就成了空中樓閣。本節(jié)介紹數(shù)據(jù)搜集的思路和方法,為營(yíng)銷(xiāo)分析奠定堅(jiān)實(shí)的基礎(chǔ)。
1.思考:應(yīng)該采集哪些數(shù)據(jù)
2.數(shù)據(jù)來(lái)源和收集途徑
3.構(gòu)建有效的數(shù)據(jù)采集系統(tǒng)
4.數(shù)據(jù)表的規(guī)劃和設(shè)計(jì)
5.低成本的數(shù)據(jù)收集手段
6.利用新技術(shù)手段簡(jiǎn)化數(shù)據(jù)收集
四、常用分析方法
數(shù)據(jù)分析不是空洞理論,還需要有科學(xué)的技術(shù)手段和方法,本節(jié)演練常用的數(shù)據(jù)分析方法
1.對(duì)比分析
2.多維分析和統(tǒng)計(jì)
3.時(shí)間序列分析
4.數(shù)據(jù)分布分析
5.方差分析
五、競(jìng)爭(zhēng)分析
企業(yè)總是在競(jìng)爭(zhēng)中壯大,如果能提前預(yù)知競(jìng)爭(zhēng)對(duì)手的信息和策略,企業(yè)更容易成功。
1.如何界定競(jìng)爭(zhēng)對(duì)手
2.市場(chǎng)競(jìng)爭(zhēng)的四個(gè)層次
3.需求的交叉彈性
4.品牌轉(zhuǎn)換矩陣
5.行業(yè)競(jìng)爭(zhēng)力分析
6.競(jìng)爭(zhēng)分析矩陣
7.競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)收集
六、市場(chǎng)調(diào)查與置信度分析
市場(chǎng)調(diào)研是合法獲取數(shù)據(jù)的重要來(lái)源,也是快速了解市場(chǎng)反應(yīng)的途徑,本節(jié)討論市場(chǎng)調(diào)查的策劃和統(tǒng)計(jì)方法。
1.如何策劃一次市場(chǎng)調(diào)查
2.常規(guī)調(diào)查方法和網(wǎng)上調(diào)查方法
3.如何進(jìn)行統(tǒng)計(jì)學(xué)上有效的抽樣調(diào)查
4.理解誤差的來(lái)源分析
5.如何對(duì)抽樣結(jié)果進(jìn)行統(tǒng)計(jì)
6.通過(guò)置信度分析計(jì)算調(diào)查誤差
七、客戶(hù)細(xì)分與精確營(yíng)銷(xiāo)
無(wú)差別的大眾媒體營(yíng)銷(xiāo)已經(jīng)無(wú)法滿(mǎn)足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精確營(yíng)銷(xiāo)是現(xiàn)在及未來(lái)的發(fā)展方向,而客戶(hù)細(xì)分是精確營(yíng)銷(xiāo)的基礎(chǔ)。
1.精確營(yíng)銷(xiāo)與客戶(hù)細(xì)分
2.客戶(hù)細(xì)分的價(jià)值
3.基于數(shù)據(jù)驅(qū)動(dòng)的細(xì)分
4.客戶(hù)數(shù)據(jù)庫(kù)分析的RFM指標(biāo)
5.基于聚類(lèi)細(xì)分方法的案例解析
6.細(xì)分結(jié)果的應(yīng)用
八、商業(yè)預(yù)測(cè)技術(shù)
預(yù)測(cè)是企業(yè)重要的決策依據(jù),企業(yè)通過(guò)預(yù)測(cè)技術(shù)可以估計(jì)下一季度、的市場(chǎng)規(guī)模、市場(chǎng)占有率、銷(xiāo)售量等。
1.預(yù)測(cè)責(zé)任者與支持者
2.預(yù)測(cè)的組織流程
3.不同的預(yù)測(cè)模型各自的優(yōu)缺點(diǎn)
4.多元回歸分析:如何分析多個(gè)因素對(duì)目標(biāo)值的影響程度,包含
i.如何建立多變量業(yè)務(wù)預(yù)測(cè)模型
ii.如何評(píng)估業(yè)務(wù)模型的有效性
iii.企業(yè)外部變量(例如經(jīng)濟(jì)宏觀數(shù)據(jù))的選擇和過(guò)濾
5.回歸分析演練:如何量化分析廣告的效果
第三篇:大數(shù)據(jù)課程報(bào)告
摘要
流形學(xué)習(xí)方法作為一類(lèi)新興的非線(xiàn)性維數(shù)約簡(jiǎn)方法,主要目標(biāo)是獲取高維觀測(cè)數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)。流形學(xué)習(xí)方法的非線(xiàn)性本質(zhì)、幾何直觀性和計(jì)算可行性,使得它在許多標(biāo)準(zhǔn)的 toy 數(shù)據(jù)集和實(shí)際數(shù)據(jù)集上都取得了令人滿(mǎn)意的結(jié)果,然而它們本身還存在著一些普遍性的問(wèn)題,比如泛化學(xué)習(xí)問(wèn)題、監(jiān)督學(xué)習(xí)問(wèn)題和大規(guī)模流形學(xué)習(xí)問(wèn)題等。因此,本文從流形學(xué)習(xí)方法存在的問(wèn)題出發(fā),在算法設(shè)計(jì)和應(yīng)用(圖像數(shù)據(jù)與蛋白質(zhì)相互作用數(shù)據(jù))等方面展開(kāi)了一系列研究工作。首先對(duì)流形學(xué)習(xí)的典型方法做了詳細(xì)對(duì)比分析,然后針對(duì)流形的泛化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、表征流形的局部幾何結(jié)構(gòu)、構(gòu)造全局的正則化線(xiàn)性回歸模型、大規(guī)模數(shù)據(jù)的流形學(xué)習(xí)等幾個(gè)方面進(jìn)行了重點(diǎn)研究,提出了三種有效的流形學(xué)習(xí)算法,并和相關(guān)研究成果進(jìn)行了理論與實(shí)驗(yàn)上的比較,從而驗(yàn)證了我們所提算法的有效性。
關(guān)鍵詞:流形學(xué)習(xí),維數(shù)約簡(jiǎn),正交局部樣條判別投影,局部多尺度回歸嵌入
I
目錄
目錄.................................................................................................................................................II 第1章 研究背景.......................................................................................................................1
1.1 流形學(xué)習(xí)的研究背景...................................................................................................1 1.2 流形學(xué)習(xí)的研究現(xiàn)狀...................................................................................................2 1.3 流形學(xué)習(xí)的應(yīng)用...........................................................................................................4 第2章 流形學(xué)習(xí)方法綜述.......................................................................................................5
2.1 流形學(xué)習(xí)方法介紹.......................................................................................................6 第3章 流形學(xué)習(xí)方法存在的問(wèn)題...........................................................................................9
3.1 本征維數(shù)估計(jì)...............................................................................................................9 3.2近鄰數(shù)選擇.................................................................................................................10 3.3 噪聲流形學(xué)習(xí).............................................................................................................10 3.4 監(jiān)督流形學(xué)習(xí).............................................................................................................11 第4章 總結(jié).............................................................................................................................11
II
第1章 研究背景
1.1 流形學(xué)習(xí)的研究背景
隨著信息時(shí)代的到來(lái),使得數(shù)據(jù)集更新更快、數(shù)據(jù)維度更高以及非結(jié)構(gòu)化性等問(wèn)題更突出。在科研研究的過(guò)程中不可避免地遇到大量的高維數(shù)據(jù),這就需要一種技術(shù)能夠使在保持?jǐn)?shù)據(jù)信息足夠完整的意義下從海量數(shù)據(jù)集中提取出有效而又合理的約簡(jiǎn)數(shù)據(jù),滿(mǎn)足人的存儲(chǔ)需求和感知需要。流形學(xué)習(xí)這一非監(jiān)督學(xué)習(xí)方法應(yīng)運(yùn)而生,引起越來(lái)越多機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)工作者的重視。而在海量的高維數(shù)據(jù)中,往往只有少量的有用信息,如果想快速高效的搜集到人們想要的、有用的那些少量信息且快速的處理信息,這就需要一些關(guān)鍵技術(shù)的支持,即是必須采用相應(yīng)的降維技術(shù)。而流形學(xué)習(xí)正是在數(shù)據(jù)降維方面有著重要的貢獻(xiàn)。然而,降維的過(guò)程與《矩陣分析》中的內(nèi)容有著密切的關(guān)系。
基于流形的降維方法能充分利用數(shù)據(jù)中所隱藏的低維有價(jià)值信息,進(jìn)一步提高檢索性能。Seung從神經(jīng)心理學(xué)的角度提出“感知以流形的形式存在,視覺(jué)記憶也可能是以穩(wěn)態(tài)的流形存儲(chǔ)”,為流形提供了與人類(lèi)認(rèn)識(shí)相關(guān)的理由。流形學(xué)習(xí)的方法主要有主成分分析(PCA)、多維尺度化(MDS)、基于局部切空間排列法(LTSA)和基于等度規(guī)映射(ISOMAP)、局部線(xiàn)性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形學(xué)習(xí)方法在人臉識(shí)別、圖像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)、認(rèn)知科學(xué)、人工智能、人機(jī)交互等眾多學(xué)科中有著廣泛的應(yīng)用。
線(xiàn)性維數(shù)約簡(jiǎn)方法是通過(guò)在高維輸入空間與低維子空間之間建立線(xiàn)性映射關(guān)系,把高維數(shù)據(jù)樣本集投影到低維線(xiàn)性子空間。線(xiàn)性維數(shù)約簡(jiǎn)技術(shù)通常假設(shè)數(shù)據(jù)集采樣于一個(gè)全局線(xiàn)性的高維觀測(cè)空間。如果所要處理的數(shù)據(jù)集分布確實(shí)呈現(xiàn)出全局線(xiàn)性的結(jié)構(gòu),或者在一定程度上可以近似為全局線(xiàn)性結(jié)構(gòu),則這些方法能夠有效地挖掘出數(shù)據(jù)集內(nèi)在的線(xiàn)性結(jié)構(gòu),獲得數(shù)據(jù)緊致的低維表示。在線(xiàn)性維數(shù)約簡(jiǎn)方法中,使用最廣泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002;Turk and Pentland, 1991)和線(xiàn)性判別分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。
主分量分析(PCA)主要是根據(jù)高維數(shù)據(jù)在低維空間重構(gòu)誤差最小的原則,來(lái)尋找一組最優(yōu)的單位正交向量基(即主分量),并通過(guò)保留數(shù)據(jù)分布方差較大的若干主分量來(lái)達(dá)到降維的目的。然而,眾所周知,由于 PCA 算法沒(méi)有利用數(shù)據(jù)樣本的類(lèi)別信息,所以它是一種非監(jiān)督的線(xiàn)性維數(shù)約簡(jiǎn)方法。與 PCA 算法不同,LDA 算法考慮到樣本的類(lèi)別信息,它是一種有監(jiān)督的方法。基于各類(lèi)樣本服從高斯分布且不同類(lèi)的協(xié)方差矩陣相同的假設(shè),LDA 算法在 Fisher 準(zhǔn)則下選擇最優(yōu)的投影向量,以使得數(shù)據(jù)樣本的類(lèi)間散度最大而類(lèi)內(nèi)散度最小。由于 LDA 算法利用了樣本的類(lèi)別信息,而樣本的類(lèi)別信息通常有助于改善識(shí)別率,因此 LDA 算法更適用于分類(lèi)問(wèn)題。
1.2 流形學(xué)習(xí)的研究現(xiàn)狀
流形學(xué)習(xí)假定輸入數(shù)據(jù)是嵌入在高維觀測(cè)空間的低維流形上,流形學(xué)習(xí)方法的目的是找出高維數(shù)據(jù)中所隱藏的低維流形結(jié)構(gòu)。經(jīng)過(guò)十多年的研究與探索,人們提出了大量的流形學(xué)習(xí)理論與算法。經(jīng)典的流形學(xué)習(xí)方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部線(xiàn)性嵌入算法(LLE)(Roweis and Saul, 2000;Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002;Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差異展開(kāi)算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005;Weinberger and Saul, 2004;Weinberger and Saul, 2006;Weinberger et al., 2004)、局部切空間排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形學(xué)習(xí)算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007;Lin et al., 2006)和局部樣條嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006;Xiang et al., 2008)等。
Tenenbaum 提出的 ISOMAP 算法是多維尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非線(xiàn)性推廣,其核心思想是用測(cè)地距離代替歐氏距離來(lái)表征流形上數(shù)據(jù)點(diǎn)的內(nèi)在幾何關(guān)系。對(duì)于樣本 點(diǎn)和它的近鄰點(diǎn)之間的測(cè)地距離用它們之間的歐氏距離來(lái)代替;對(duì)于樣本點(diǎn)和近鄰點(diǎn)之外的點(diǎn)之間的測(cè)地距離用它們之間的最短路徑來(lái)代替。Bernstein 等人證明了只要樣本是隨機(jī)抽取的,在樣本集足夠大且選擇適當(dāng)近鄰參數(shù)k 時(shí),近鄰圖上兩點(diǎn)的最短路徑可以逼近它們的測(cè)地距離(Bernstein et al., 2000)。當(dāng)應(yīng)用于內(nèi)蘊(yùn)平坦的凸流形時(shí),ISOMAP 算法能夠忠實(shí)地捕獲數(shù)據(jù)內(nèi)在的低維流形結(jié)構(gòu)(De Silva and Tenenbaum, 2003)。
ISOMAP 算法的主要缺點(diǎn)在于:① 對(duì)樣本點(diǎn)的噪聲比較敏感;② 對(duì)于具有較大曲率或稀疏采樣的數(shù)據(jù)集,不能發(fā)現(xiàn)其內(nèi)在的本征結(jié)構(gòu);③ 需要計(jì)算全體數(shù)據(jù)集的測(cè)地距離矩陣,因此算法的時(shí)間復(fù)雜度較高。圍繞 ISOMAP算法,已經(jīng)出現(xiàn)了許多相關(guān)的理論分析與研究工作。
Balasubramanian 等人對(duì)ISOMAP 算法的拓?fù)浞€(wěn)定性進(jìn)行了深入探討(Balasubramanian and Schwartz, 2002)。對(duì)于數(shù)據(jù)分布所在的低維流形具有較大的內(nèi)在曲率情況,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。為了減小 ISOMAP 算法的計(jì)算復(fù)雜度,de Silva 和 Tenenbaum提出了帶標(biāo)記的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。
針對(duì) ISOMAP 算法對(duì)于數(shù)據(jù)集噪聲敏感的問(wèn)題,Choi 等人通過(guò)觀察圖中的網(wǎng)絡(luò)流提出了一種消除臨界孤立點(diǎn)的方法以加強(qiáng) ISOMAP 算法的拓?fù)浞€(wěn)定性(Choi and Choi, 2007)。在構(gòu)建近鄰圖方面,Yang 提出通過(guò)構(gòu)造k 連通圖方式來(lái)確保近鄰圖的連通性,以提高測(cè)地距離的估計(jì)精度(Yang, 2005)。
2009 年,Xiang 等人提出了局部樣條嵌入算法(LSE)(Xiang et al., 2006;Xiang et al., 2008)。Xiang 認(rèn)為,對(duì)于嵌入在高維輸入空間的低維流形,非線(xiàn)性維數(shù)約簡(jiǎn)的任務(wù)實(shí)際上是尋找一組非線(xiàn)性的復(fù)合映射,即由局部坐標(biāo)映射(Local Coordinatization Mapping)與全局排列映射(Global Alignment Mapping)復(fù)合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通過(guò)主分量分析計(jì)算每個(gè)樣本點(diǎn)局部鄰域在切空間上的投影獲得該鄰域所有樣本的局部坐標(biāo),從而保持流形的局部幾何結(jié)構(gòu)信息;然后采用Sobolev 空間的一組樣條函數(shù)把每個(gè)樣本點(diǎn)的局部坐標(biāo)映射成 全局唯一的低維坐標(biāo)。它們均是利用每個(gè)樣本的局部切空間來(lái)捕獲流形的局部幾何,樣本點(diǎn)在切空間的投影來(lái)表示樣本點(diǎn)的局部坐標(biāo)。然而它們的主要區(qū)別在于全局排列,LTSA 算法是利用仿射變換來(lái)進(jìn)行全局排列,而 LSE 算法是利用樣條函數(shù)來(lái)獲得全局唯一的坐標(biāo)。因此相對(duì)于 LTSA 而言,LSE 算法能夠?qū)崿F(xiàn)更小的重構(gòu)誤差。LSE 算法的主要缺點(diǎn)在于:一是無(wú)法保持全局尺度信息;二是不能學(xué)習(xí)具有較大曲率的低維流形結(jié)構(gòu)。除此,如何選擇滿(mǎn)足要求的樣條函數(shù)也是一個(gè)值得考慮的問(wèn)題。
不同流形學(xué)習(xí)算法的區(qū)別在于所嘗試保持流形的局部鄰域結(jié)構(gòu)信息以及利用這些信息構(gòu)造全局嵌入的方法不同,與以往的維數(shù)約簡(jiǎn)方法相比,流形學(xué)習(xí)能夠有效地探索非線(xiàn)性流形分布數(shù)據(jù)的內(nèi)在規(guī)律與性質(zhì)。但是在實(shí)際應(yīng)用中流形學(xué)習(xí)方法仍然存在一些缺點(diǎn),比如本征維數(shù)估計(jì)問(wèn)題、樣本外點(diǎn)學(xué)習(xí)問(wèn)題、監(jiān)督流形學(xué)習(xí)問(wèn)題和噪聲流形學(xué)習(xí)問(wèn)題等。為了解決這些問(wèn)題,相關(guān)的算法也不斷涌現(xiàn)出來(lái)。Freedman 等提出了一種基于簡(jiǎn)化單純復(fù)形的流形重構(gòu)方法來(lái)自動(dòng)估計(jì)流形的本征維數(shù)(Freedman, 2002)。
為了解決樣本外點(diǎn)學(xué)習(xí)問(wèn)題,研究人員分別在流形學(xué)習(xí)的線(xiàn)性化、核化和張量化等方面作了有益的探索(Yan et al., 2007)。Geng 等將樣本的類(lèi)別信息融入到 ISOMAP 算法,提出了一種用于可視化和分類(lèi)的有監(jiān)督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一種基于局部線(xiàn)性平滑的流形學(xué)習(xí)消噪模型(Zhang and Zha, 2003)。這些方法的提出在一定程度上緩解了目前流形學(xué)習(xí)方法中存在的一些問(wèn)題,但是還需要進(jìn)一步充實(shí)和完善。
1.3 流形學(xué)習(xí)的應(yīng)用
目前,流形學(xué)習(xí)方法的應(yīng)用可歸納為以下幾個(gè)方面:
1)數(shù)據(jù)的可視化。流形學(xué)習(xí)方法在高維數(shù)據(jù)的可視化方面有了廣泛的應(yīng)用。人不能直接感知高維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),但對(duì)三維以下數(shù)據(jù)的內(nèi)在結(jié)構(gòu)卻有很強(qiáng)的感知能力。由于流形學(xué)習(xí)方法可以發(fā)現(xiàn)高維觀測(cè)數(shù)據(jù)中蘊(yùn)含的內(nèi)在規(guī)律和本征結(jié)構(gòu),而且這種規(guī)律在本質(zhì)上不依賴(lài)于我們實(shí)際觀測(cè)到的數(shù)據(jù)維數(shù)。因此我們可以通過(guò)流形學(xué)習(xí)方法 對(duì)高維輸入數(shù)據(jù)進(jìn)行維數(shù)約簡(jiǎn),使高維數(shù)據(jù)的內(nèi)部關(guān)系和結(jié)構(gòu)在低于三維的空間中展示出來(lái),從而使人們能夠直觀地認(rèn)識(shí)和了解高維的非線(xiàn)性數(shù)據(jù)的內(nèi)在規(guī)律,達(dá)到可視化的目的。
2)信息檢索。隨著多媒體和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,圖像和文本信息的應(yīng)用日益廣泛,對(duì)規(guī)模逐漸龐大的圖像和文本數(shù)據(jù)庫(kù)如何進(jìn)行有效的管理已成為亟待解決的問(wèn)題。靈活、高效、準(zhǔn)確的信息檢索策略是解決這一問(wèn)題的關(guān)鍵技術(shù)之一。這些圖像和文本信息呈現(xiàn)出高維、大規(guī)模、非線(xiàn)性結(jié)構(gòu),利用流形學(xué)習(xí)方法來(lái)處理這些信息,在大大降低時(shí)間和空間計(jì)算復(fù)雜度的同時(shí),能夠有效地保留這些信息在原始高維空間的相似性。
3)圖像處理。流形學(xué)習(xí)給圖像處理領(lǐng)域提供了一個(gè)強(qiáng)有力的工具。眾所周知,圖像處理與圖像中物體的輪廓以及骨架等密切相關(guān)。如果我們把圖像中物體的輪廓以及骨架等看成是嵌入在二維平面中的一維流形或者由一組一維流形構(gòu)成,那么顯然流形學(xué)習(xí)方法憑借其強(qiáng)大的流形逼近能力可以應(yīng)用于圖像處理領(lǐng)域。
第2章 流形學(xué)習(xí)方法綜述
流形學(xué)習(xí)方法作為一種新興的非線(xiàn)性維數(shù)約簡(jiǎn)方法,主要目標(biāo)是獲取高維觀測(cè)數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)。本章首先探討了流形學(xué)習(xí)的基礎(chǔ)性問(wèn)題,即高維數(shù)據(jù)分析的流形建模問(wèn)題;然后依據(jù)保持流形幾何特性的不同,把現(xiàn)有的流形學(xué)習(xí)方法劃分為全局特性保持方法和局部特性保持方法,并介紹了每一類(lèi)方法中有代表性的流形學(xué)習(xí)算法的基本原理,對(duì)各種流形學(xué)習(xí)算法進(jìn)行性能比較和可視化分析,最后就流形學(xué)習(xí)方法普遍存在的本征維數(shù)估計(jì)、近鄰數(shù)選擇、噪聲流形學(xué)習(xí)、樣本外點(diǎn)學(xué)習(xí)和監(jiān)督流形學(xué)習(xí)問(wèn)題等進(jìn)行了分析和討論。2.1 流形學(xué)習(xí)方法介紹
流形學(xué)習(xí)的定義:流形是局部具有歐氏空間性質(zhì)的空間。假設(shè)數(shù)據(jù)是均勻采樣于一個(gè)高維歐氏空間中的低維流形,流形學(xué)習(xí)就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實(shí)現(xiàn)維數(shù)約簡(jiǎn)或者數(shù)據(jù)可視化。它是從觀測(cè)到的現(xiàn)象中去尋找事物的本質(zhì),找到產(chǎn)生數(shù)據(jù)的內(nèi)在規(guī)律。
流形學(xué)習(xí)用數(shù)學(xué)語(yǔ)言描述是:令Y??yi?且?: Y??是一個(gè)光滑的嵌套,其中D >> d。那么流形學(xué)習(xí)的目標(biāo)是基于?上的一個(gè)給定被觀測(cè)數(shù)據(jù)集合?xi?去恢復(fù)Y與?,也就是在Y 中隨機(jī)產(chǎn)生隱藏的數(shù)據(jù)?yi?,然后通過(guò)? 映射到觀測(cè)空間,使得?xi?f?yi??。
從流形學(xué)習(xí)的定義中可以看出,這是一個(gè)把數(shù)據(jù)從高維映射到低維的過(guò)程,用到了線(xiàn)性變換,當(dāng)然少不了矩陣的分解及其基本運(yùn)算。2.1.1 多維尺度分析(Multidimensional Scaling, MDS)
多維尺度分析(Multidimensional Scaling, MDS)是一種經(jīng)典的線(xiàn)性降維方法,其主要思想是:根據(jù)數(shù)據(jù)點(diǎn)間的歐氏距離,構(gòu)造關(guān)系矩陣,為了盡可能地保持每對(duì)觀測(cè)數(shù)據(jù)點(diǎn)間的歐氏距離,只需對(duì)此關(guān)系矩陣進(jìn)行特征分解,從而獲得每個(gè)數(shù)據(jù)在低維空間中的低維坐標(biāo)。
DDDx??x設(shè)給定的高維觀測(cè)數(shù)據(jù)點(diǎn)集為Y??U,i,觀測(cè)數(shù)據(jù)點(diǎn)對(duì)i,Tyj間的歐氏距離為?ij?xi?yj,傳統(tǒng)MDS 的算法步驟如下:
a)首先根據(jù)求出的兩點(diǎn)之間的歐氏距離
?ij構(gòu)造n階平方歐式距離矩陣A???ij2? n?n。b)將矩陣A進(jìn)行雙中心化計(jì)算,即計(jì)算
B??1HAH2(其中H 為中心化eeTH?I?n,將矩陣H左乘和右乘時(shí)稱(chēng)為雙中心化)矩陣。
c)計(jì)算低維坐標(biāo)Y。即將B奇異值分解,設(shè)B的最大的d個(gè)特征值??diag??1,?2,...,?d?Y??UT。
?u1,u2,...,ud??則d維低維坐標(biāo)為,對(duì)應(yīng)特征向量,U??雖然作為線(xiàn)性方法,MDS在流形學(xué)習(xí)中不能有效發(fā)現(xiàn)內(nèi)在低維結(jié)構(gòu)。但是從這一基本的算法中我們可以清楚的看出矩陣分析在流形學(xué)習(xí)研究中的應(yīng)用。在這個(gè)MDS算法中,運(yùn)用到了矩陣中的線(xiàn)性空間變換、矩陣特征值和特征向量的計(jì)算、矩陣的中心化計(jì)算、矩陣的奇異值的分解等相關(guān)知識(shí)點(diǎn)。想象一下,如果沒(méi)有這些知識(shí)點(diǎn)做基礎(chǔ),這些算法如何進(jìn)行。2.1.2 等距特征映射(ISOMAP)
(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多維尺度分析(MDS)基礎(chǔ)上的一種非線(xiàn)性維數(shù)約簡(jiǎn)方法。ISOMAP算法利用所有樣本點(diǎn)對(duì)之間的測(cè)地距離矩陣來(lái)代替MDS算法中的歐氏距離矩陣,以保持嵌入在高維觀測(cè)空間中內(nèi)在低維流形的全局幾何特性。算法的關(guān)鍵是計(jì)算每個(gè)樣本點(diǎn)與所有其它樣本點(diǎn)之間的測(cè)地距離。對(duì)于近鄰點(diǎn),利用輸入空間的歐氏距離直接得到其測(cè)地距離;對(duì)于非近鄰點(diǎn),利用近鄰圖上兩點(diǎn)之間的最短路徑近似測(cè)地距離。然后對(duì)于構(gòu)造的全局測(cè)地距離矩陣,利用MDS算法在高維輸入空間與低維嵌入空間之間建立等距映射,從而發(fā)現(xiàn)嵌入在高維空間的內(nèi)在低維表示(Tenenbaum et al., 2000)。
(2)算法流程 <1>構(gòu)造近鄰圖G
<2>計(jì)算最短路徑
<3>計(jì)算 d 維嵌入(3)算法分析 ISOMAP算法是一種保持全局幾何特性的方法,它的低維嵌入結(jié)果能夠反映出高維觀測(cè)樣本所在流形上的測(cè)地距離。如果高維觀測(cè)樣本所在的低維流形與歐氏空間的一個(gè)子集是整體等距的,且與樣本所在流形等距的歐氏空間的子集是一個(gè)凸集,那么ISOMAP算法能夠取得比較理想的嵌入結(jié)果。但是當(dāng)流形曲率較大或者流形上有“孔洞”,即與流形等距的歐氏空間的子集非凸時(shí),流形上的測(cè)地距離估計(jì)會(huì)產(chǎn)生較大的誤差,導(dǎo)致嵌入結(jié)果產(chǎn)生變形。
從算法的時(shí)間復(fù)雜度來(lái)看,ISOMAP算法有兩個(gè)計(jì)算瓶頸(De Silva and Tenenbaum, 2003)。第一個(gè)是計(jì)算n×n 的最短路徑距離矩陣DG。當(dāng)使用Floyd算法時(shí),計(jì)算復(fù)雜度為O(n3);若采用Dijkstra算法,可將計(jì)算復(fù)雜度降低到O(kn2log n)(k 為近鄰數(shù)大小)(Cormen, 2001)。第二個(gè)計(jì)算瓶頸源于應(yīng)用MDS時(shí)的特征分解。由于距離矩陣是稠密的,所以特征分解的計(jì)算復(fù)雜度為O(n3)。從中我們可以看出,隨著樣本個(gè)數(shù)n 的增大,ISOMAP算法計(jì)算效率低下的問(wèn)題會(huì)變得十分突出。2.1.3局部線(xiàn)性嵌入(LLE)
1、基本思想
與ISOMAP和MVU算法不同,局部線(xiàn)性嵌入算法(LLE)是一種局部特性保持方法。LLE算法的核心是保持降維前后近鄰之間的局部線(xiàn)性結(jié)構(gòu)不變。算法的主要思想是假定每個(gè)數(shù)據(jù)點(diǎn)與它的近鄰點(diǎn)位于流形的一個(gè)線(xiàn)性或近似線(xiàn)性的局部鄰域,在該鄰域中的數(shù)據(jù)點(diǎn)可以由其近鄰點(diǎn)來(lái)線(xiàn)性表示,重建低維流形時(shí),相應(yīng)的內(nèi)在低維空間中的數(shù)據(jù)點(diǎn)保持相同的局部近鄰關(guān)系,即低維流形空間的每個(gè)數(shù)據(jù)點(diǎn)用其近鄰點(diǎn)線(xiàn)性表示的權(quán)重與它們?cè)诟呔S觀測(cè)空間中的線(xiàn)性表示權(quán)重相同,而各個(gè)局部鄰域之間的相互重疊部分則描述了由局部線(xiàn)性到全局非線(xiàn)性的排列信息(Roweis and Saul, 2000)。這樣就可以把高維輸入數(shù)據(jù)映射到全局唯一的低維坐標(biāo)系統(tǒng)。
2、算法流程
LLE算法的基本步驟分為三步:(1)選擇鄰域(2)計(jì)算重構(gòu)權(quán)值矩陣W(3)求低維嵌入Y
3、算法分析
通過(guò)前面算法描述我們不難發(fā)現(xiàn),LLE算法可以學(xué)習(xí)任意維具有局部線(xiàn)性結(jié)構(gòu)的低維流形。它以重構(gòu)權(quán)值矩陣作為高維觀測(cè)空間與低維嵌入空間之間聯(lián)系的橋梁,使得數(shù)據(jù)點(diǎn)與其近鄰點(diǎn)在平移、旋轉(zhuǎn)和縮放等變化下保持近鄰關(guān)系不變。而且LLE算法具有解析的全局最優(yōu)解,無(wú)需迭代。在算法的計(jì)算復(fù)雜度上,選擇鄰域的計(jì)算復(fù)雜度為O(Dn2),計(jì)算重構(gòu)權(quán)值矩陣的計(jì)算復(fù)雜度為O((D+k)k2n),求解低維嵌入Y 的計(jì)算復(fù)雜度為O(dn2)。因此與ISOMAP和MVU算法相比,LLE算法的計(jì)算復(fù)雜度要小得多。
但LLE算法也存在一些缺點(diǎn):① 由于LLE算法只是保持局部近鄰的重構(gòu)權(quán)值關(guān)系,并不是保持距離關(guān)系,因此,LLE算法通常不能很好的恢復(fù)出具有等距性質(zhì)的流形。② LLE算法希望樣本集均勻稠密采樣于低維流形,因此,對(duì)于受噪聲污染、樣本密度稀疏或相互關(guān)聯(lián)較弱的數(shù)據(jù)集,在從高維觀測(cè)空間到低維嵌入空間的映射過(guò)程中,可能會(huì)將相互關(guān)聯(lián)較弱的遠(yuǎn)點(diǎn)映射到局部近鄰點(diǎn)的位置,從而破壞了低維嵌入結(jié)果。
第3章 流形學(xué)習(xí)方法存在的問(wèn)題
流形學(xué)習(xí)相對(duì)于傳統(tǒng)的線(xiàn)性維數(shù)約簡(jiǎn)方法來(lái)說(shuō),它能夠更好地發(fā)現(xiàn)高維復(fù)雜非線(xiàn)性數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)與規(guī)律。但其各種算法本身還存在著一些普遍性的問(wèn)題,比如本征維數(shù)估計(jì)問(wèn)題、近鄰數(shù)選擇問(wèn)題、噪聲流形學(xué)習(xí)問(wèn)題、泛化學(xué)習(xí)問(wèn)題和監(jiān)督學(xué)習(xí)問(wèn)題等。本小節(jié)將對(duì)這些問(wèn)題進(jìn)行簡(jiǎn)要的分析和討論。
3.1 本征維數(shù)估計(jì)
本征維數(shù)估計(jì)是流形學(xué)習(xí)的一個(gè)基本問(wèn)題(趙連偉 et al., 2005)。本征維數(shù)一般被定義為描述數(shù)據(jù)集中所有數(shù)據(jù)所需要的自由參數(shù)(或獨(dú)立坐標(biāo))的最小數(shù)目。它反映了隱藏在高維觀測(cè)數(shù)據(jù)中潛在低維流形的拓?fù)鋵傩?。在?線(xiàn)性維數(shù)約簡(jiǎn)過(guò)程中,本征維數(shù)估計(jì)的準(zhǔn)確與否對(duì)低維空間的嵌入結(jié)果有著重要的影響。如果本征維數(shù)估計(jì)過(guò)大,將會(huì)保留數(shù)據(jù)的冗余信息,使嵌入結(jié)果中含有噪聲;相反如果本征維數(shù)估計(jì)過(guò)小,將會(huì)丟失數(shù)據(jù)的有用信息,導(dǎo)致高維空間中不同的點(diǎn)在低維空間可能會(huì)交疊。因此,設(shè)計(jì)穩(wěn)定可靠的本征維數(shù)估計(jì)方法將有助于流形學(xué)習(xí)算法的應(yīng)用和性能的改善。
目前現(xiàn)有的本征維數(shù)估計(jì)方法大致分為兩大類(lèi):特征映射法和幾何學(xué)習(xí)法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998;Fukunaga and Olsen, 1971)和多維尺度分析方法(Cox and Cox, 2000),它主要利用了數(shù)據(jù)分布的本征特征是數(shù)據(jù)的局部特征的基本思想,對(duì)局部數(shù)據(jù)進(jìn)行特征分解,選取對(duì)應(yīng)特征值最大的特征向量作為本征特征。顯然,這類(lèi)方法所估計(jì)的本征維數(shù)大小在很大程度上取決于數(shù)據(jù)的局部鄰域劃分和閾值的選擇,因此特征映射方法不能提供本征維數(shù)的可靠估計(jì)。幾何學(xué)習(xí)法主要基于最近鄰距離(Nearest Neighbor Distances)或分形維(Fractal Dimension)(Camastra, 2003)來(lái)探索數(shù)據(jù)集所蘊(yùn)含的幾何信息,這類(lèi)方法通常需要充足的樣本數(shù),因此,對(duì)于樣本數(shù)少、觀測(cè)空間維數(shù)較高的情況,經(jīng)常會(huì)出現(xiàn)本征維數(shù)欠估計(jì)的情況。
3.2近鄰數(shù)選擇
流形學(xué)習(xí)探測(cè)低維流形結(jié)構(gòu)成功與否在很大程度上取決于近鄰數(shù)的選擇(Zeng, 2008),然而在構(gòu)造近鄰圖時(shí)如何選擇一個(gè)合適的近鄰數(shù)是一個(gè)公開(kāi)的問(wèn)題。如果近鄰數(shù)選擇過(guò)大,將會(huì)產(chǎn)生“短路邊”現(xiàn)象(“short-circuit” edges),從而嚴(yán)重破壞原始流形數(shù)據(jù)的拓?fù)溥B通性。
3.3 噪聲流形學(xué)習(xí)
當(dāng)觀測(cè)數(shù)據(jù)均勻稠密采樣于一個(gè)理想的低維光滑流形時(shí),流形學(xué)習(xí)方法可以成功地挖掘出其內(nèi)在的低維結(jié)構(gòu)和本質(zhì)規(guī)律。但是在實(shí)際應(yīng)用中,我們經(jīng)常發(fā)現(xiàn)高維采樣數(shù)據(jù)由于受各種因素的影響,一般總是存在著噪聲和污染,這將勢(shì)必影響流形學(xué)習(xí)算法的低維嵌入結(jié)果。3.4 監(jiān)督流形學(xué)習(xí)
現(xiàn)有的流形學(xué)習(xí)方法多數(shù)用于無(wú)監(jiān)督學(xué)習(xí)情況,如解決降維與數(shù)據(jù)可視化等問(wèn)題。當(dāng)已知數(shù)據(jù)的類(lèi)別信息,如何利用這些信息有效地改進(jìn)原始流形學(xué)習(xí)算法的分類(lèi)識(shí)別能力是監(jiān)督流形學(xué)習(xí)所要解決的問(wèn)題。從數(shù)據(jù)分類(lèi)的角度來(lái)看,人們希望高維觀測(cè)數(shù)據(jù)經(jīng)過(guò)維數(shù)約簡(jiǎn)后在低維空間中類(lèi)內(nèi)差異小而類(lèi)間差異大,從而有利于樣本的分類(lèi)識(shí)別。原始的流形學(xué)習(xí)算法都是無(wú)監(jiān)督學(xué)習(xí)過(guò)程,一些引進(jìn)監(jiān)督信息的改進(jìn)算法紛紛被提出來(lái)(Li et al., 2009;Zhao et al., 2006)。這些方法的基本思想是利用樣本的類(lèi)別信息指導(dǎo)構(gòu)建有監(jiān)督的近鄰圖,然后利用流形學(xué)習(xí)方法進(jìn)行低維嵌入。盡管這些方法能夠獲得較好的分類(lèi)結(jié)果,但是這種通過(guò)類(lèi)別屬性構(gòu)建的近鄰圖往往會(huì)被分割成多個(gè)互不相連的子圖,而不是一個(gè)完整的近鄰圖,這就給原始流形學(xué)習(xí)算法的最終應(yīng)用帶來(lái)了很大的不便。
第4章 總結(jié)
流形學(xué)習(xí)是一個(gè)具有基礎(chǔ)性、前瞻性的研究方向,其研究成果和技術(shù)已經(jīng)立即應(yīng)用于模式識(shí)別、計(jì)算機(jī)視覺(jué)、圖像處理等相關(guān)領(lǐng)域。如高維數(shù)據(jù)的可視化、可聽(tīng)化;基于內(nèi)容檢索的模型;視頻中三維對(duì)象的跟蹤和檢測(cè);從靜態(tài)二維圖像中進(jìn)行三維對(duì)象的姿態(tài)估計(jì)和識(shí)別;二維和三維對(duì)象的形狀重構(gòu);從運(yùn)動(dòng)中構(gòu)建結(jié)構(gòu)、從陰影中成形等。此外流形學(xué)習(xí)還應(yīng)用于自然語(yǔ)言處理、基因表達(dá)分析等生物信息處理領(lǐng)域,特別是在基因表達(dá)分析中,用于檢測(cè)和區(qū)分不同的疾病和疾病類(lèi)型。
盡管流形學(xué)習(xí)的算法和應(yīng)用在過(guò)去的幾年中已經(jīng)取得了豐碩的成果,但是由于其數(shù)學(xué)理論基礎(chǔ)較為深厚復(fù)雜,以及多個(gè)學(xué)科之間交叉融合,所以仍有許多亟需研究和解決的問(wèn)題,尤其在下述幾個(gè)方面:
1.目前已有很多流形學(xué)習(xí)算法,但很多算法只是建立在實(shí)驗(yàn)的基礎(chǔ)之上,并沒(méi)有充分理論基礎(chǔ)支持,所以我們一方面要進(jìn)一步探索能夠有效學(xué)習(xí)到流形局部幾何和拓?fù)浣Y(jié)構(gòu)的算法,提高流形投影算法的性能,另外更重要的是要不斷完善理論基礎(chǔ)。
2.各支幾何都是研究空間在變換群下的不變性,微分幾何亦是如此。而很多情況下我們正需要這種不變性,所以研究局部樣本密度、噪聲水平、流形的正則性、局部曲率、撓率結(jié)構(gòu)的交互作用對(duì)流形學(xué)習(xí)的研究有積極促進(jìn)作用。
3.統(tǒng)計(jì)學(xué)習(xí)理論得到充分發(fā)展并逐漸成熟,流形學(xué)習(xí)理論在其基礎(chǔ)上發(fā)展自然可以把統(tǒng)計(jì)學(xué)中有用的技術(shù)應(yīng)用于流形學(xué)習(xí)中,如流形上的取樣和Monte Carlo估計(jì)、假設(shè)檢驗(yàn),以及流形上關(guān)于不變測(cè)度的概率分布密度問(wèn)題,都值得進(jìn)一步研究。
4.目前大部分學(xué)習(xí)算法都是基于局部的,而基于局部算法一個(gè)很大缺陷就在于受噪聲影響較大,所以要研究減小局部方法對(duì)于噪聲和離群值的影響,提高學(xué)習(xí)算法魯棒性及泛化能力。
5.譜方法對(duì)噪聲十分敏感。希望大家自己做做實(shí)驗(yàn)體會(huì)一下,流形學(xué)習(xí)中譜方法的脆弱。
6.采樣問(wèn)題對(duì)結(jié)果的影響。
7.一個(gè)最尷尬的事情莫過(guò)于,如果用來(lái)做識(shí)別,流形學(xué)習(xí)線(xiàn)性化的方法比原來(lái)非線(xiàn)性的方法效果要好得多,如果用原始方法做識(shí)別,那個(gè)效果叫一個(gè)差。也正因?yàn)榇?,使很多人?duì)流形學(xué)習(xí)產(chǎn)生了懷疑。
8.把偏微分幾何方法引入到流形學(xué)習(xí)中來(lái)是一個(gè)很有希望的方向。這樣的工作在最近一年已經(jīng)有出現(xiàn)的跡象。
參考文獻(xiàn)
[1] R.Basri and D.W.Jacobs.Lambertian reflectance and linear subspaces.IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003.[2] R.Vidal.Subspace clustering.IEEE Signal Processing Magazine, 28(2):52–68, 2011.[3] J.Shi and J.Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000.[4] G.Liu, Z.Lin, S.Yan, J.Sun, Y.Yu, and Y.Ma.Robust recovery of subspace structures by low-rank representation.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013.[5] E.Elhamifar and R.Vidal.Sparse subspace clustering: Algorithm, theory, and applications.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781, 2013.[6] Y.Wang, Y.Jiang, Y.Wu, and Z.Zhou.Spectral clustering on multiple manifolds.IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011.[7] B.Cheng, G.Liu, J.Wang, Z.Huang, and S.Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011.[8] C.Lang, G.Liu, J.Yu, and S.Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.
第四篇:《時(shí)間序列數(shù)據(jù)分析挖掘》課程實(shí)驗(yàn)報(bào)告模板
《時(shí)間序列數(shù)據(jù)分析挖掘》
課程實(shí)驗(yàn)報(bào)告
實(shí)驗(yàn)名稱(chēng): | |
姓 名: | |
學(xué) 號(hào): | |
上課類(lèi)型: | 平臺(tái)課/專(zhuān)業(yè)課 |
日 期: |
一、實(shí)驗(yàn)內(nèi)容
實(shí)驗(yàn)內(nèi)容包含要進(jìn)行什么實(shí)驗(yàn),實(shí)驗(yàn)的目的是什么,實(shí)驗(yàn)用到的算法及其原理的簡(jiǎn)單介紹。
1.1實(shí)驗(yàn)
1.2實(shí)驗(yàn)
1.3實(shí)驗(yàn)
二、實(shí)驗(yàn)設(shè)計(jì)
若實(shí)驗(yàn)內(nèi)容皆為指定內(nèi)容,則此部分則可省略;若實(shí)驗(yàn)內(nèi)容包括自主設(shè)計(jì)模型等內(nèi)容,則需要在此部分寫(xiě)明設(shè)計(jì)思路、流程,并畫(huà)出模型圖并使用相應(yīng)的文字進(jìn)行描述。
三、實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù)集
簡(jiǎn)單介紹實(shí)驗(yàn)環(huán)境和涉及的數(shù)據(jù)集
四、實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)過(guò)程包括在編寫(xiě)代碼時(shí)一些需要注意的事項(xiàng),可附代碼片段進(jìn)行說(shuō)明;還應(yīng)該包括在訓(xùn)練模型時(shí)進(jìn)行的一些步驟、參數(shù)設(shè)置等內(nèi)容。
注:為了代碼片段盡量的美觀、統(tǒng)一,建議附代碼片段時(shí)只附加關(guān)鍵的片段,不要全部粘貼,并盡量使用下面提供的網(wǎng)站進(jìn)行代碼高亮等格式轉(zhuǎn)換后再粘貼。
http://www.planetb.ca/syntax-highlight-word
4.1實(shí)驗(yàn)
4.2實(shí)驗(yàn)
4.3實(shí)驗(yàn)
五、實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果包括程序運(yùn)行結(jié)果以及對(duì)結(jié)果的分析,盡量用圖表展示實(shí)驗(yàn)結(jié)果,并且通過(guò)結(jié)果進(jìn)行相關(guān)的分析。
5.1結(jié)果
5.2結(jié)果
5.3結(jié)果
六、實(shí)驗(yàn)心得體會(huì)
這部分主要包含自己做實(shí)驗(yàn)過(guò)程中遇到的困難以及解決辦法,通過(guò)做實(shí)驗(yàn)自己有哪些收獲和體會(huì),以及不足等等。
七、參考文獻(xiàn)
參考文獻(xiàn)主要包含實(shí)驗(yàn)過(guò)程中涉及到的參考資料或者借鑒別人的材料等,如果沒(méi)有可以不寫(xiě)。
八、附錄
需要補(bǔ)充說(shuō)明的內(nèi)容,如無(wú)可略。
實(shí)驗(yàn)報(bào)告編寫(xiě)要求
1.正文要求小四號(hào)宋體,行間距1.5倍;
2.英文要求小四號(hào)Times New Roman;
3.在實(shí)驗(yàn)內(nèi)容、實(shí)驗(yàn)過(guò)程、實(shí)驗(yàn)結(jié)果三部分需要針對(duì)當(dāng)次實(shí)驗(yàn)不同的實(shí)驗(yàn)內(nèi)容分別填寫(xiě)(模版以實(shí)驗(yàn)一為例),實(shí)驗(yàn)設(shè)計(jì)中如有必要也可以分開(kāi)填寫(xiě);
4.實(shí)驗(yàn)報(bào)告配圖的每幅圖應(yīng)有編號(hào)和標(biāo)題,編號(hào)和標(biāo)題應(yīng)位于圖下方處,居中,中文用五號(hào)宋體;
5.表格應(yīng)為三線(xiàn)表,每個(gè)表格應(yīng)有編號(hào)和標(biāo)題,編號(hào)和標(biāo)題應(yīng)寫(xiě)在表格上方正中,距正文段前0.5倍行距。表格中量與單位之間用“/”分隔,編號(hào)與標(biāo)題中的中文用五號(hào)宋體;
6.圖、表、公式、算式等,一律用阿拉伯?dāng)?shù)字分別依序連續(xù)編排序號(hào)。其標(biāo)注形式應(yīng)便于互相區(qū)別,可分別為:圖1、表2、公式(5)等。
第五篇:Oracle數(shù)據(jù)庫(kù)課程分析與感想
Oracle數(shù)據(jù)庫(kù)課程分析與感想
這門(mén)課主要是為我們?cè)谝郧皩W(xué)過(guò)的數(shù)據(jù)庫(kù)的基礎(chǔ)上讓我們更深入的加強(qiáng)對(duì)Oracle數(shù)據(jù)庫(kù)的理解,讓我們從它的結(jié)構(gòu),它的功能,它的對(duì)象以及多種方面去感受它。
老師每節(jié)課都說(shuō)了不同的內(nèi)容,然而我個(gè)人最關(guān)心的還是關(guān)于Oracle數(shù)據(jù)庫(kù)的安全性。安全是現(xiàn)如今人人都在關(guān)注的問(wèn)題,特別是計(jì)算機(jī)安全。如今每家每戶(hù)的生活都離不開(kāi)電腦,其中的安全問(wèn)題更是大家在乎的重點(diǎn)。我們使用的軟件,各種網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的安全性我們尤為關(guān)心。
Oracle數(shù)據(jù)庫(kù)經(jīng)過(guò)30多年的發(fā)展,現(xiàn)如今已經(jīng)為各個(gè)領(lǐng)域所使用,已經(jīng)在數(shù)據(jù)庫(kù)市場(chǎng)中占據(jù)了主導(dǎo)地位。在當(dāng)今世界500強(qiáng)企業(yè)中,70%企業(yè)使用的是Oracle數(shù)據(jù)庫(kù),世界十大B2C公司全部使用Oracle數(shù)據(jù)庫(kù),世界十大B2B公司中有9家使用的是Oracle數(shù)據(jù)庫(kù)。
為何Oracle會(huì)有如此的成就,能在眾多數(shù)據(jù)庫(kù)中脫穎而出?安全當(dāng)然是第一原因。從一開(kāi)始,Oracle就提供了業(yè)界最先進(jìn)的技術(shù)來(lái)保護(hù)存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)。Oracle提供了全面的安全性解決方案組合來(lái)保護(hù)數(shù)據(jù)隱私,防范內(nèi)部威脅,并確保遵守法規(guī)。借助Oracle強(qiáng)大的數(shù)據(jù)庫(kù)活動(dòng)監(jiān)控和分塊、授權(quán)用戶(hù)和多要素訪問(wèn)控制、數(shù)據(jù)分類(lèi)、透明的數(shù)據(jù)加密、統(tǒng)一的審計(jì)和報(bào)表編制、安全的配置管理和數(shù)據(jù)屏蔽等強(qiáng)大功能,用戶(hù)無(wú)需對(duì)現(xiàn)有應(yīng)用程序做任何改變即可部署可靠的數(shù)據(jù)安全性解決方案,從而節(jié)省時(shí)間和金錢(qián)。
與此同時(shí),Oracle公司也推出了許多安全性產(chǎn)品,例如數(shù)據(jù)防火墻,數(shù)據(jù)屏蔽,全面回憶等。
然而,隨著時(shí)代的發(fā)展和Oracle被不斷的應(yīng)用,導(dǎo)致其中信息量逐漸增加,數(shù)據(jù)庫(kù)的安全性越來(lái)越重要。防止數(shù)據(jù)丟失等事件的措施也越來(lái)越重要。對(duì)數(shù)據(jù)的管理也越來(lái)越嚴(yán)謹(jǐn)。
首先就是用戶(hù)管理。用戶(hù)和Oracle呈現(xiàn)一對(duì)一的關(guān)系,即一個(gè)口令對(duì)應(yīng)一個(gè)用戶(hù),使每個(gè)用戶(hù)的信息相對(duì)獨(dú)立。還有很重要的權(quán)限系統(tǒng),可以區(qū)分普通用戶(hù)和管理員,方便信息管理和保存,同時(shí)也可以是用戶(hù)的信息得到更安全的保存,不致使信息泄露等問(wèn)題的發(fā)生。其次是系統(tǒng)權(quán)限。它可以選擇用戶(hù)給予相應(yīng)的權(quán)限,確保信息不會(huì)被除管理開(kāi)發(fā)人員意外的人盜用。
最后就是數(shù)據(jù)的備份。每個(gè)系統(tǒng)都不會(huì)是完美的,總會(huì)出現(xiàn)損壞的現(xiàn)象。數(shù)據(jù)備份就是防止各種損壞中數(shù)據(jù)的丟失和遺漏,也為數(shù)據(jù)庫(kù)管理員解決了一個(gè)大麻煩。
其實(shí)關(guān)于Oracle數(shù)據(jù)庫(kù)的安全性方面還有太多東西等著我們?nèi)ヌ剿?。課程里所說(shuō)的東西也不過(guò)是整個(gè)Oracle數(shù)據(jù)庫(kù)知識(shí)里的冰山一角。在以后的生活里我們還要更多的接觸這方面的事物,跟上時(shí)代發(fā)展才是最重要的。