久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

大數(shù)據(jù)課程報(bào)告

時(shí)間:2019-05-14 06:35:37下載本文作者:會(huì)員上傳
簡(jiǎn)介:寫寫幫文庫(kù)小編為你整理了多篇相關(guān)的《大數(shù)據(jù)課程報(bào)告》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫(kù)還可以找到更多《大數(shù)據(jù)課程報(bào)告》。

第一篇:大數(shù)據(jù)課程報(bào)告

摘要

流形學(xué)習(xí)方法作為一類新興的非線性維數(shù)約簡(jiǎn)方法,主要目標(biāo)是獲取高維觀測(cè)數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)。流形學(xué)習(xí)方法的非線性本質(zhì)、幾何直觀性和計(jì)算可行性,使得它在許多標(biāo)準(zhǔn)的 toy 數(shù)據(jù)集和實(shí)際數(shù)據(jù)集上都取得了令人滿意的結(jié)果,然而它們本身還存在著一些普遍性的問題,比如泛化學(xué)習(xí)問題、監(jiān)督學(xué)習(xí)問題和大規(guī)模流形學(xué)習(xí)問題等。因此,本文從流形學(xué)習(xí)方法存在的問題出發(fā),在算法設(shè)計(jì)和應(yīng)用(圖像數(shù)據(jù)與蛋白質(zhì)相互作用數(shù)據(jù))等方面展開了一系列研究工作。首先對(duì)流形學(xué)習(xí)的典型方法做了詳細(xì)對(duì)比分析,然后針對(duì)流形的泛化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、表征流形的局部幾何結(jié)構(gòu)、構(gòu)造全局的正則化線性回歸模型、大規(guī)模數(shù)據(jù)的流形學(xué)習(xí)等幾個(gè)方面進(jìn)行了重點(diǎn)研究,提出了三種有效的流形學(xué)習(xí)算法,并和相關(guān)研究成果進(jìn)行了理論與實(shí)驗(yàn)上的比較,從而驗(yàn)證了我們所提算法的有效性。

關(guān)鍵詞:流形學(xué)習(xí),維數(shù)約簡(jiǎn),正交局部樣條判別投影,局部多尺度回歸嵌入

I

目錄

目錄.................................................................................................................................................II 第1章 研究背景.......................................................................................................................1

1.1 流形學(xué)習(xí)的研究背景...................................................................................................1 1.2 流形學(xué)習(xí)的研究現(xiàn)狀...................................................................................................2 1.3 流形學(xué)習(xí)的應(yīng)用...........................................................................................................4 第2章 流形學(xué)習(xí)方法綜述.......................................................................................................5

2.1 流形學(xué)習(xí)方法介紹.......................................................................................................6 第3章 流形學(xué)習(xí)方法存在的問題...........................................................................................9

3.1 本征維數(shù)估計(jì)...............................................................................................................9 3.2近鄰數(shù)選擇.................................................................................................................10 3.3 噪聲流形學(xué)習(xí).............................................................................................................10 3.4 監(jiān)督流形學(xué)習(xí).............................................................................................................11 第4章 總結(jié).............................................................................................................................11

II

第1章 研究背景

1.1 流形學(xué)習(xí)的研究背景

隨著信息時(shí)代的到來(lái),使得數(shù)據(jù)集更新更快、數(shù)據(jù)維度更高以及非結(jié)構(gòu)化性等問題更突出。在科研研究的過(guò)程中不可避免地遇到大量的高維數(shù)據(jù),這就需要一種技術(shù)能夠使在保持?jǐn)?shù)據(jù)信息足夠完整的意義下從海量數(shù)據(jù)集中提取出有效而又合理的約簡(jiǎn)數(shù)據(jù),滿足人的存儲(chǔ)需求和感知需要。流形學(xué)習(xí)這一非監(jiān)督學(xué)習(xí)方法應(yīng)運(yùn)而生,引起越來(lái)越多機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)工作者的重視。而在海量的高維數(shù)據(jù)中,往往只有少量的有用信息,如果想快速高效的搜集到人們想要的、有用的那些少量信息且快速的處理信息,這就需要一些關(guān)鍵技術(shù)的支持,即是必須采用相應(yīng)的降維技術(shù)。而流形學(xué)習(xí)正是在數(shù)據(jù)降維方面有著重要的貢獻(xiàn)。然而,降維的過(guò)程與《矩陣分析》中的內(nèi)容有著密切的關(guān)系。

基于流形的降維方法能充分利用數(shù)據(jù)中所隱藏的低維有價(jià)值信息,進(jìn)一步提高檢索性能。Seung從神經(jīng)心理學(xué)的角度提出“感知以流形的形式存在,視覺記憶也可能是以穩(wěn)態(tài)的流形存儲(chǔ)”,為流形提供了與人類認(rèn)識(shí)相關(guān)的理由。流形學(xué)習(xí)的方法主要有主成分分析(PCA)、多維尺度化(MDS)、基于局部切空間排列法(LTSA)和基于等度規(guī)映射(ISOMAP)、局部線性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形學(xué)習(xí)方法在人臉識(shí)別、圖像處理、模式識(shí)別、計(jì)算機(jī)視覺、認(rèn)知科學(xué)、人工智能、人機(jī)交互等眾多學(xué)科中有著廣泛的應(yīng)用。

線性維數(shù)約簡(jiǎn)方法是通過(guò)在高維輸入空間與低維子空間之間建立線性映射關(guān)系,把高維數(shù)據(jù)樣本集投影到低維線性子空間。線性維數(shù)約簡(jiǎn)技術(shù)通常假設(shè)數(shù)據(jù)集采樣于一個(gè)全局線性的高維觀測(cè)空間。如果所要處理的數(shù)據(jù)集分布確實(shí)呈現(xiàn)出全局線性的結(jié)構(gòu),或者在一定程度上可以近似為全局線性結(jié)構(gòu),則這些方法能夠有效地挖掘出數(shù)據(jù)集內(nèi)在的線性結(jié)構(gòu),獲得數(shù)據(jù)緊致的低維表示。在線性維數(shù)約簡(jiǎn)方法中,使用最廣泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002;Turk and Pentland, 1991)和線性判別分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根據(jù)高維數(shù)據(jù)在低維空間重構(gòu)誤差最小的原則,來(lái)尋找一組最優(yōu)的單位正交向量基(即主分量),并通過(guò)保留數(shù)據(jù)分布方差較大的若干主分量來(lái)達(dá)到降維的目的。然而,眾所周知,由于 PCA 算法沒有利用數(shù)據(jù)樣本的類別信息,所以它是一種非監(jiān)督的線性維數(shù)約簡(jiǎn)方法。與 PCA 算法不同,LDA 算法考慮到樣本的類別信息,它是一種有監(jiān)督的方法。基于各類樣本服從高斯分布且不同類的協(xié)方差矩陣相同的假設(shè),LDA 算法在 Fisher 準(zhǔn)則下選擇最優(yōu)的投影向量,以使得數(shù)據(jù)樣本的類間散度最大而類內(nèi)散度最小。由于 LDA 算法利用了樣本的類別信息,而樣本的類別信息通常有助于改善識(shí)別率,因此 LDA 算法更適用于分類問題。

1.2 流形學(xué)習(xí)的研究現(xiàn)狀

流形學(xué)習(xí)假定輸入數(shù)據(jù)是嵌入在高維觀測(cè)空間的低維流形上,流形學(xué)習(xí)方法的目的是找出高維數(shù)據(jù)中所隱藏的低維流形結(jié)構(gòu)。經(jīng)過(guò)十多年的研究與探索,人們提出了大量的流形學(xué)習(xí)理論與算法。經(jīng)典的流形學(xué)習(xí)方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部線性嵌入算法(LLE)(Roweis and Saul, 2000;Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002;Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差異展開算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005;Weinberger and Saul, 2004;Weinberger and Saul, 2006;Weinberger et al., 2004)、局部切空間排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形學(xué)習(xí)算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007;Lin et al., 2006)和局部樣條嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006;Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多維尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非線性推廣,其核心思想是用測(cè)地距離代替歐氏距離來(lái)表征流形上數(shù)據(jù)點(diǎn)的內(nèi)在幾何關(guān)系。對(duì)于樣本 點(diǎn)和它的近鄰點(diǎn)之間的測(cè)地距離用它們之間的歐氏距離來(lái)代替;對(duì)于樣本點(diǎn)和近鄰點(diǎn)之外的點(diǎn)之間的測(cè)地距離用它們之間的最短路徑來(lái)代替。Bernstein 等人證明了只要樣本是隨機(jī)抽取的,在樣本集足夠大且選擇適當(dāng)近鄰參數(shù)k 時(shí),近鄰圖上兩點(diǎn)的最短路徑可以逼近它們的測(cè)地距離(Bernstein et al., 2000)。當(dāng)應(yīng)用于內(nèi)蘊(yùn)平坦的凸流形時(shí),ISOMAP 算法能夠忠實(shí)地捕獲數(shù)據(jù)內(nèi)在的低維流形結(jié)構(gòu)(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺點(diǎn)在于:① 對(duì)樣本點(diǎn)的噪聲比較敏感;② 對(duì)于具有較大曲率或稀疏采樣的數(shù)據(jù)集,不能發(fā)現(xiàn)其內(nèi)在的本征結(jié)構(gòu);③ 需要計(jì)算全體數(shù)據(jù)集的測(cè)地距離矩陣,因此算法的時(shí)間復(fù)雜度較高。圍繞 ISOMAP算法,已經(jīng)出現(xiàn)了許多相關(guān)的理論分析與研究工作。

Balasubramanian 等人對(duì)ISOMAP 算法的拓?fù)浞€(wěn)定性進(jìn)行了深入探討(Balasubramanian and Schwartz, 2002)。對(duì)于數(shù)據(jù)分布所在的低維流形具有較大的內(nèi)在曲率情況,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。為了減小 ISOMAP 算法的計(jì)算復(fù)雜度,de Silva 和 Tenenbaum提出了帶標(biāo)記的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

針對(duì) ISOMAP 算法對(duì)于數(shù)據(jù)集噪聲敏感的問題,Choi 等人通過(guò)觀察圖中的網(wǎng)絡(luò)流提出了一種消除臨界孤立點(diǎn)的方法以加強(qiáng) ISOMAP 算法的拓?fù)浞€(wěn)定性(Choi and Choi, 2007)。在構(gòu)建近鄰圖方面,Yang 提出通過(guò)構(gòu)造k 連通圖方式來(lái)確保近鄰圖的連通性,以提高測(cè)地距離的估計(jì)精度(Yang, 2005)。

2009 年,Xiang 等人提出了局部樣條嵌入算法(LSE)(Xiang et al., 2006;Xiang et al., 2008)。Xiang 認(rèn)為,對(duì)于嵌入在高維輸入空間的低維流形,非線性維數(shù)約簡(jiǎn)的任務(wù)實(shí)際上是尋找一組非線性的復(fù)合映射,即由局部坐標(biāo)映射(Local Coordinatization Mapping)與全局排列映射(Global Alignment Mapping)復(fù)合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通過(guò)主分量分析計(jì)算每個(gè)樣本點(diǎn)局部鄰域在切空間上的投影獲得該鄰域所有樣本的局部坐標(biāo),從而保持流形的局部幾何結(jié)構(gòu)信息;然后采用Sobolev 空間的一組樣條函數(shù)把每個(gè)樣本點(diǎn)的局部坐標(biāo)映射成 全局唯一的低維坐標(biāo)。它們均是利用每個(gè)樣本的局部切空間來(lái)捕獲流形的局部幾何,樣本點(diǎn)在切空間的投影來(lái)表示樣本點(diǎn)的局部坐標(biāo)。然而它們的主要區(qū)別在于全局排列,LTSA 算法是利用仿射變換來(lái)進(jìn)行全局排列,而 LSE 算法是利用樣條函數(shù)來(lái)獲得全局唯一的坐標(biāo)。因此相對(duì)于 LTSA 而言,LSE 算法能夠?qū)崿F(xiàn)更小的重構(gòu)誤差。LSE 算法的主要缺點(diǎn)在于:一是無(wú)法保持全局尺度信息;二是不能學(xué)習(xí)具有較大曲率的低維流形結(jié)構(gòu)。除此,如何選擇滿足要求的樣條函數(shù)也是一個(gè)值得考慮的問題。

不同流形學(xué)習(xí)算法的區(qū)別在于所嘗試保持流形的局部鄰域結(jié)構(gòu)信息以及利用這些信息構(gòu)造全局嵌入的方法不同,與以往的維數(shù)約簡(jiǎn)方法相比,流形學(xué)習(xí)能夠有效地探索非線性流形分布數(shù)據(jù)的內(nèi)在規(guī)律與性質(zhì)。但是在實(shí)際應(yīng)用中流形學(xué)習(xí)方法仍然存在一些缺點(diǎn),比如本征維數(shù)估計(jì)問題、樣本外點(diǎn)學(xué)習(xí)問題、監(jiān)督流形學(xué)習(xí)問題和噪聲流形學(xué)習(xí)問題等。為了解決這些問題,相關(guān)的算法也不斷涌現(xiàn)出來(lái)。Freedman 等提出了一種基于簡(jiǎn)化單純復(fù)形的流形重構(gòu)方法來(lái)自動(dòng)估計(jì)流形的本征維數(shù)(Freedman, 2002)。

為了解決樣本外點(diǎn)學(xué)習(xí)問題,研究人員分別在流形學(xué)習(xí)的線性化、核化和張量化等方面作了有益的探索(Yan et al., 2007)。Geng 等將樣本的類別信息融入到 ISOMAP 算法,提出了一種用于可視化和分類的有監(jiān)督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一種基于局部線性平滑的流形學(xué)習(xí)消噪模型(Zhang and Zha, 2003)。這些方法的提出在一定程度上緩解了目前流形學(xué)習(xí)方法中存在的一些問題,但是還需要進(jìn)一步充實(shí)和完善。

1.3 流形學(xué)習(xí)的應(yīng)用

目前,流形學(xué)習(xí)方法的應(yīng)用可歸納為以下幾個(gè)方面:

1)數(shù)據(jù)的可視化。流形學(xué)習(xí)方法在高維數(shù)據(jù)的可視化方面有了廣泛的應(yīng)用。人不能直接感知高維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),但對(duì)三維以下數(shù)據(jù)的內(nèi)在結(jié)構(gòu)卻有很強(qiáng)的感知能力。由于流形學(xué)習(xí)方法可以發(fā)現(xiàn)高維觀測(cè)數(shù)據(jù)中蘊(yùn)含的內(nèi)在規(guī)律和本征結(jié)構(gòu),而且這種規(guī)律在本質(zhì)上不依賴于我們實(shí)際觀測(cè)到的數(shù)據(jù)維數(shù)。因此我們可以通過(guò)流形學(xué)習(xí)方法 對(duì)高維輸入數(shù)據(jù)進(jìn)行維數(shù)約簡(jiǎn),使高維數(shù)據(jù)的內(nèi)部關(guān)系和結(jié)構(gòu)在低于三維的空間中展示出來(lái),從而使人們能夠直觀地認(rèn)識(shí)和了解高維的非線性數(shù)據(jù)的內(nèi)在規(guī)律,達(dá)到可視化的目的。

2)信息檢索。隨著多媒體和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,圖像和文本信息的應(yīng)用日益廣泛,對(duì)規(guī)模逐漸龐大的圖像和文本數(shù)據(jù)庫(kù)如何進(jìn)行有效的管理已成為亟待解決的問題。靈活、高效、準(zhǔn)確的信息檢索策略是解決這一問題的關(guān)鍵技術(shù)之一。這些圖像和文本信息呈現(xiàn)出高維、大規(guī)模、非線性結(jié)構(gòu),利用流形學(xué)習(xí)方法來(lái)處理這些信息,在大大降低時(shí)間和空間計(jì)算復(fù)雜度的同時(shí),能夠有效地保留這些信息在原始高維空間的相似性。

3)圖像處理。流形學(xué)習(xí)給圖像處理領(lǐng)域提供了一個(gè)強(qiáng)有力的工具。眾所周知,圖像處理與圖像中物體的輪廓以及骨架等密切相關(guān)。如果我們把圖像中物體的輪廓以及骨架等看成是嵌入在二維平面中的一維流形或者由一組一維流形構(gòu)成,那么顯然流形學(xué)習(xí)方法憑借其強(qiáng)大的流形逼近能力可以應(yīng)用于圖像處理領(lǐng)域。

第2章 流形學(xué)習(xí)方法綜述

流形學(xué)習(xí)方法作為一種新興的非線性維數(shù)約簡(jiǎn)方法,主要目標(biāo)是獲取高維觀測(cè)數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)。本章首先探討了流形學(xué)習(xí)的基礎(chǔ)性問題,即高維數(shù)據(jù)分析的流形建模問題;然后依據(jù)保持流形幾何特性的不同,把現(xiàn)有的流形學(xué)習(xí)方法劃分為全局特性保持方法和局部特性保持方法,并介紹了每一類方法中有代表性的流形學(xué)習(xí)算法的基本原理,對(duì)各種流形學(xué)習(xí)算法進(jìn)行性能比較和可視化分析,最后就流形學(xué)習(xí)方法普遍存在的本征維數(shù)估計(jì)、近鄰數(shù)選擇、噪聲流形學(xué)習(xí)、樣本外點(diǎn)學(xué)習(xí)和監(jiān)督流形學(xué)習(xí)問題等進(jìn)行了分析和討論。2.1 流形學(xué)習(xí)方法介紹

流形學(xué)習(xí)的定義:流形是局部具有歐氏空間性質(zhì)的空間。假設(shè)數(shù)據(jù)是均勻采樣于一個(gè)高維歐氏空間中的低維流形,流形學(xué)習(xí)就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實(shí)現(xiàn)維數(shù)約簡(jiǎn)或者數(shù)據(jù)可視化。它是從觀測(cè)到的現(xiàn)象中去尋找事物的本質(zhì),找到產(chǎn)生數(shù)據(jù)的內(nèi)在規(guī)律。

流形學(xué)習(xí)用數(shù)學(xué)語(yǔ)言描述是:令Y??yi?且?: Y??是一個(gè)光滑的嵌套,其中D >> d。那么流形學(xué)習(xí)的目標(biāo)是基于?上的一個(gè)給定被觀測(cè)數(shù)據(jù)集合?xi?去恢復(fù)Y與?,也就是在Y 中隨機(jī)產(chǎn)生隱藏的數(shù)據(jù)?yi?,然后通過(guò)? 映射到觀測(cè)空間,使得?xi?f?yi??。

從流形學(xué)習(xí)的定義中可以看出,這是一個(gè)把數(shù)據(jù)從高維映射到低維的過(guò)程,用到了線性變換,當(dāng)然少不了矩陣的分解及其基本運(yùn)算。2.1.1 多維尺度分析(Multidimensional Scaling, MDS)

多維尺度分析(Multidimensional Scaling, MDS)是一種經(jīng)典的線性降維方法,其主要思想是:根據(jù)數(shù)據(jù)點(diǎn)間的歐氏距離,構(gòu)造關(guān)系矩陣,為了盡可能地保持每對(duì)觀測(cè)數(shù)據(jù)點(diǎn)間的歐氏距離,只需對(duì)此關(guān)系矩陣進(jìn)行特征分解,從而獲得每個(gè)數(shù)據(jù)在低維空間中的低維坐標(biāo)。

DDDx??x設(shè)給定的高維觀測(cè)數(shù)據(jù)點(diǎn)集為Y??U,i,觀測(cè)數(shù)據(jù)點(diǎn)對(duì)i,Tyj間的歐氏距離為?ij?xi?yj,傳統(tǒng)MDS 的算法步驟如下:

a)首先根據(jù)求出的兩點(diǎn)之間的歐氏距離

?ij構(gòu)造n階平方歐式距離矩陣A???ij2? n?n。b)將矩陣A進(jìn)行雙中心化計(jì)算,即計(jì)算

B??1HAH2(其中H 為中心化eeTH?I?n,將矩陣H左乘和右乘時(shí)稱為雙中心化)矩陣。

c)計(jì)算低維坐標(biāo)Y。即將B奇異值分解,設(shè)B的最大的d個(gè)特征值??diag??1,?2,...,?d?Y??UT。

?u1,u2,...,ud??則d維低維坐標(biāo)為,對(duì)應(yīng)特征向量,U??雖然作為線性方法,MDS在流形學(xué)習(xí)中不能有效發(fā)現(xiàn)內(nèi)在低維結(jié)構(gòu)。但是從這一基本的算法中我們可以清楚的看出矩陣分析在流形學(xué)習(xí)研究中的應(yīng)用。在這個(gè)MDS算法中,運(yùn)用到了矩陣中的線性空間變換、矩陣特征值和特征向量的計(jì)算、矩陣的中心化計(jì)算、矩陣的奇異值的分解等相關(guān)知識(shí)點(diǎn)。想象一下,如果沒有這些知識(shí)點(diǎn)做基礎(chǔ),這些算法如何進(jìn)行。2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多維尺度分析(MDS)基礎(chǔ)上的一種非線性維數(shù)約簡(jiǎn)方法。ISOMAP算法利用所有樣本點(diǎn)對(duì)之間的測(cè)地距離矩陣來(lái)代替MDS算法中的歐氏距離矩陣,以保持嵌入在高維觀測(cè)空間中內(nèi)在低維流形的全局幾何特性。算法的關(guān)鍵是計(jì)算每個(gè)樣本點(diǎn)與所有其它樣本點(diǎn)之間的測(cè)地距離。對(duì)于近鄰點(diǎn),利用輸入空間的歐氏距離直接得到其測(cè)地距離;對(duì)于非近鄰點(diǎn),利用近鄰圖上兩點(diǎn)之間的最短路徑近似測(cè)地距離。然后對(duì)于構(gòu)造的全局測(cè)地距離矩陣,利用MDS算法在高維輸入空間與低維嵌入空間之間建立等距映射,從而發(fā)現(xiàn)嵌入在高維空間的內(nèi)在低維表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>構(gòu)造近鄰圖G

<2>計(jì)算最短路徑

<3>計(jì)算 d 維嵌入(3)算法分析 ISOMAP算法是一種保持全局幾何特性的方法,它的低維嵌入結(jié)果能夠反映出高維觀測(cè)樣本所在流形上的測(cè)地距離。如果高維觀測(cè)樣本所在的低維流形與歐氏空間的一個(gè)子集是整體等距的,且與樣本所在流形等距的歐氏空間的子集是一個(gè)凸集,那么ISOMAP算法能夠取得比較理想的嵌入結(jié)果。但是當(dāng)流形曲率較大或者流形上有“孔洞”,即與流形等距的歐氏空間的子集非凸時(shí),流形上的測(cè)地距離估計(jì)會(huì)產(chǎn)生較大的誤差,導(dǎo)致嵌入結(jié)果產(chǎn)生變形。

從算法的時(shí)間復(fù)雜度來(lái)看,ISOMAP算法有兩個(gè)計(jì)算瓶頸(De Silva and Tenenbaum, 2003)。第一個(gè)是計(jì)算n×n 的最短路徑距離矩陣DG。當(dāng)使用Floyd算法時(shí),計(jì)算復(fù)雜度為O(n3);若采用Dijkstra算法,可將計(jì)算復(fù)雜度降低到O(kn2log n)(k 為近鄰數(shù)大小)(Cormen, 2001)。第二個(gè)計(jì)算瓶頸源于應(yīng)用MDS時(shí)的特征分解。由于距離矩陣是稠密的,所以特征分解的計(jì)算復(fù)雜度為O(n3)。從中我們可以看出,隨著樣本個(gè)數(shù)n 的增大,ISOMAP算法計(jì)算效率低下的問題會(huì)變得十分突出。2.1.3局部線性嵌入(LLE)

1、基本思想

與ISOMAP和MVU算法不同,局部線性嵌入算法(LLE)是一種局部特性保持方法。LLE算法的核心是保持降維前后近鄰之間的局部線性結(jié)構(gòu)不變。算法的主要思想是假定每個(gè)數(shù)據(jù)點(diǎn)與它的近鄰點(diǎn)位于流形的一個(gè)線性或近似線性的局部鄰域,在該鄰域中的數(shù)據(jù)點(diǎn)可以由其近鄰點(diǎn)來(lái)線性表示,重建低維流形時(shí),相應(yīng)的內(nèi)在低維空間中的數(shù)據(jù)點(diǎn)保持相同的局部近鄰關(guān)系,即低維流形空間的每個(gè)數(shù)據(jù)點(diǎn)用其近鄰點(diǎn)線性表示的權(quán)重與它們?cè)诟呔S觀測(cè)空間中的線性表示權(quán)重相同,而各個(gè)局部鄰域之間的相互重疊部分則描述了由局部線性到全局非線性的排列信息(Roweis and Saul, 2000)。這樣就可以把高維輸入數(shù)據(jù)映射到全局唯一的低維坐標(biāo)系統(tǒng)。

2、算法流程

LLE算法的基本步驟分為三步:(1)選擇鄰域(2)計(jì)算重構(gòu)權(quán)值矩陣W(3)求低維嵌入Y

3、算法分析

通過(guò)前面算法描述我們不難發(fā)現(xiàn),LLE算法可以學(xué)習(xí)任意維具有局部線性結(jié)構(gòu)的低維流形。它以重構(gòu)權(quán)值矩陣作為高維觀測(cè)空間與低維嵌入空間之間聯(lián)系的橋梁,使得數(shù)據(jù)點(diǎn)與其近鄰點(diǎn)在平移、旋轉(zhuǎn)和縮放等變化下保持近鄰關(guān)系不變。而且LLE算法具有解析的全局最優(yōu)解,無(wú)需迭代。在算法的計(jì)算復(fù)雜度上,選擇鄰域的計(jì)算復(fù)雜度為O(Dn2),計(jì)算重構(gòu)權(quán)值矩陣的計(jì)算復(fù)雜度為O((D+k)k2n),求解低維嵌入Y 的計(jì)算復(fù)雜度為O(dn2)。因此與ISOMAP和MVU算法相比,LLE算法的計(jì)算復(fù)雜度要小得多。

但LLE算法也存在一些缺點(diǎn):① 由于LLE算法只是保持局部近鄰的重構(gòu)權(quán)值關(guān)系,并不是保持距離關(guān)系,因此,LLE算法通常不能很好的恢復(fù)出具有等距性質(zhì)的流形。② LLE算法希望樣本集均勻稠密采樣于低維流形,因此,對(duì)于受噪聲污染、樣本密度稀疏或相互關(guān)聯(lián)較弱的數(shù)據(jù)集,在從高維觀測(cè)空間到低維嵌入空間的映射過(guò)程中,可能會(huì)將相互關(guān)聯(lián)較弱的遠(yuǎn)點(diǎn)映射到局部近鄰點(diǎn)的位置,從而破壞了低維嵌入結(jié)果。

第3章 流形學(xué)習(xí)方法存在的問題

流形學(xué)習(xí)相對(duì)于傳統(tǒng)的線性維數(shù)約簡(jiǎn)方法來(lái)說(shuō),它能夠更好地發(fā)現(xiàn)高維復(fù)雜非線性數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)與規(guī)律。但其各種算法本身還存在著一些普遍性的問題,比如本征維數(shù)估計(jì)問題、近鄰數(shù)選擇問題、噪聲流形學(xué)習(xí)問題、泛化學(xué)習(xí)問題和監(jiān)督學(xué)習(xí)問題等。本小節(jié)將對(duì)這些問題進(jìn)行簡(jiǎn)要的分析和討論。

3.1 本征維數(shù)估計(jì)

本征維數(shù)估計(jì)是流形學(xué)習(xí)的一個(gè)基本問題(趙連偉 et al., 2005)。本征維數(shù)一般被定義為描述數(shù)據(jù)集中所有數(shù)據(jù)所需要的自由參數(shù)(或獨(dú)立坐標(biāo))的最小數(shù)目。它反映了隱藏在高維觀測(cè)數(shù)據(jù)中潛在低維流形的拓?fù)鋵傩浴T诜?線性維數(shù)約簡(jiǎn)過(guò)程中,本征維數(shù)估計(jì)的準(zhǔn)確與否對(duì)低維空間的嵌入結(jié)果有著重要的影響。如果本征維數(shù)估計(jì)過(guò)大,將會(huì)保留數(shù)據(jù)的冗余信息,使嵌入結(jié)果中含有噪聲;相反如果本征維數(shù)估計(jì)過(guò)小,將會(huì)丟失數(shù)據(jù)的有用信息,導(dǎo)致高維空間中不同的點(diǎn)在低維空間可能會(huì)交疊。因此,設(shè)計(jì)穩(wěn)定可靠的本征維數(shù)估計(jì)方法將有助于流形學(xué)習(xí)算法的應(yīng)用和性能的改善。

目前現(xiàn)有的本征維數(shù)估計(jì)方法大致分為兩大類:特征映射法和幾何學(xué)習(xí)法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998;Fukunaga and Olsen, 1971)和多維尺度分析方法(Cox and Cox, 2000),它主要利用了數(shù)據(jù)分布的本征特征是數(shù)據(jù)的局部特征的基本思想,對(duì)局部數(shù)據(jù)進(jìn)行特征分解,選取對(duì)應(yīng)特征值最大的特征向量作為本征特征。顯然,這類方法所估計(jì)的本征維數(shù)大小在很大程度上取決于數(shù)據(jù)的局部鄰域劃分和閾值的選擇,因此特征映射方法不能提供本征維數(shù)的可靠估計(jì)。幾何學(xué)習(xí)法主要基于最近鄰距離(Nearest Neighbor Distances)或分形維(Fractal Dimension)(Camastra, 2003)來(lái)探索數(shù)據(jù)集所蘊(yùn)含的幾何信息,這類方法通常需要充足的樣本數(shù),因此,對(duì)于樣本數(shù)少、觀測(cè)空間維數(shù)較高的情況,經(jīng)常會(huì)出現(xiàn)本征維數(shù)欠估計(jì)的情況。

3.2近鄰數(shù)選擇

流形學(xué)習(xí)探測(cè)低維流形結(jié)構(gòu)成功與否在很大程度上取決于近鄰數(shù)的選擇(Zeng, 2008),然而在構(gòu)造近鄰圖時(shí)如何選擇一個(gè)合適的近鄰數(shù)是一個(gè)公開的問題。如果近鄰數(shù)選擇過(guò)大,將會(huì)產(chǎn)生“短路邊”現(xiàn)象(“short-circuit” edges),從而嚴(yán)重破壞原始流形數(shù)據(jù)的拓?fù)溥B通性。

3.3 噪聲流形學(xué)習(xí)

當(dāng)觀測(cè)數(shù)據(jù)均勻稠密采樣于一個(gè)理想的低維光滑流形時(shí),流形學(xué)習(xí)方法可以成功地挖掘出其內(nèi)在的低維結(jié)構(gòu)和本質(zhì)規(guī)律。但是在實(shí)際應(yīng)用中,我們經(jīng)常發(fā)現(xiàn)高維采樣數(shù)據(jù)由于受各種因素的影響,一般總是存在著噪聲和污染,這將勢(shì)必影響流形學(xué)習(xí)算法的低維嵌入結(jié)果。3.4 監(jiān)督流形學(xué)習(xí)

現(xiàn)有的流形學(xué)習(xí)方法多數(shù)用于無(wú)監(jiān)督學(xué)習(xí)情況,如解決降維與數(shù)據(jù)可視化等問題。當(dāng)已知數(shù)據(jù)的類別信息,如何利用這些信息有效地改進(jìn)原始流形學(xué)習(xí)算法的分類識(shí)別能力是監(jiān)督流形學(xué)習(xí)所要解決的問題。從數(shù)據(jù)分類的角度來(lái)看,人們希望高維觀測(cè)數(shù)據(jù)經(jīng)過(guò)維數(shù)約簡(jiǎn)后在低維空間中類內(nèi)差異小而類間差異大,從而有利于樣本的分類識(shí)別。原始的流形學(xué)習(xí)算法都是無(wú)監(jiān)督學(xué)習(xí)過(guò)程,一些引進(jìn)監(jiān)督信息的改進(jìn)算法紛紛被提出來(lái)(Li et al., 2009;Zhao et al., 2006)。這些方法的基本思想是利用樣本的類別信息指導(dǎo)構(gòu)建有監(jiān)督的近鄰圖,然后利用流形學(xué)習(xí)方法進(jìn)行低維嵌入。盡管這些方法能夠獲得較好的分類結(jié)果,但是這種通過(guò)類別屬性構(gòu)建的近鄰圖往往會(huì)被分割成多個(gè)互不相連的子圖,而不是一個(gè)完整的近鄰圖,這就給原始流形學(xué)習(xí)算法的最終應(yīng)用帶來(lái)了很大的不便。

第4章 總結(jié)

流形學(xué)習(xí)是一個(gè)具有基礎(chǔ)性、前瞻性的研究方向,其研究成果和技術(shù)已經(jīng)立即應(yīng)用于模式識(shí)別、計(jì)算機(jī)視覺、圖像處理等相關(guān)領(lǐng)域。如高維數(shù)據(jù)的可視化、可聽化;基于內(nèi)容檢索的模型;視頻中三維對(duì)象的跟蹤和檢測(cè);從靜態(tài)二維圖像中進(jìn)行三維對(duì)象的姿態(tài)估計(jì)和識(shí)別;二維和三維對(duì)象的形狀重構(gòu);從運(yùn)動(dòng)中構(gòu)建結(jié)構(gòu)、從陰影中成形等。此外流形學(xué)習(xí)還應(yīng)用于自然語(yǔ)言處理、基因表達(dá)分析等生物信息處理領(lǐng)域,特別是在基因表達(dá)分析中,用于檢測(cè)和區(qū)分不同的疾病和疾病類型。

盡管流形學(xué)習(xí)的算法和應(yīng)用在過(guò)去的幾年中已經(jīng)取得了豐碩的成果,但是由于其數(shù)學(xué)理論基礎(chǔ)較為深厚復(fù)雜,以及多個(gè)學(xué)科之間交叉融合,所以仍有許多亟需研究和解決的問題,尤其在下述幾個(gè)方面:

1.目前已有很多流形學(xué)習(xí)算法,但很多算法只是建立在實(shí)驗(yàn)的基礎(chǔ)之上,并沒有充分理論基礎(chǔ)支持,所以我們一方面要進(jìn)一步探索能夠有效學(xué)習(xí)到流形局部幾何和拓?fù)浣Y(jié)構(gòu)的算法,提高流形投影算法的性能,另外更重要的是要不斷完善理論基礎(chǔ)。

2.各支幾何都是研究空間在變換群下的不變性,微分幾何亦是如此。而很多情況下我們正需要這種不變性,所以研究局部樣本密度、噪聲水平、流形的正則性、局部曲率、撓率結(jié)構(gòu)的交互作用對(duì)流形學(xué)習(xí)的研究有積極促進(jìn)作用。

3.統(tǒng)計(jì)學(xué)習(xí)理論得到充分發(fā)展并逐漸成熟,流形學(xué)習(xí)理論在其基礎(chǔ)上發(fā)展自然可以把統(tǒng)計(jì)學(xué)中有用的技術(shù)應(yīng)用于流形學(xué)習(xí)中,如流形上的取樣和Monte Carlo估計(jì)、假設(shè)檢驗(yàn),以及流形上關(guān)于不變測(cè)度的概率分布密度問題,都值得進(jìn)一步研究。

4.目前大部分學(xué)習(xí)算法都是基于局部的,而基于局部算法一個(gè)很大缺陷就在于受噪聲影響較大,所以要研究減小局部方法對(duì)于噪聲和離群值的影響,提高學(xué)習(xí)算法魯棒性及泛化能力。

5.譜方法對(duì)噪聲十分敏感。希望大家自己做做實(shí)驗(yàn)體會(huì)一下,流形學(xué)習(xí)中譜方法的脆弱。

6.采樣問題對(duì)結(jié)果的影響。

7.一個(gè)最尷尬的事情莫過(guò)于,如果用來(lái)做識(shí)別,流形學(xué)習(xí)線性化的方法比原來(lái)非線性的方法效果要好得多,如果用原始方法做識(shí)別,那個(gè)效果叫一個(gè)差。也正因?yàn)榇耍购芏嗳藢?duì)流形學(xué)習(xí)產(chǎn)生了懷疑。

8.把偏微分幾何方法引入到流形學(xué)習(xí)中來(lái)是一個(gè)很有希望的方向。這樣的工作在最近一年已經(jīng)有出現(xiàn)的跡象。

參考文獻(xiàn)

[1] R.Basri and D.W.Jacobs.Lambertian reflectance and linear subspaces.IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003.[2] R.Vidal.Subspace clustering.IEEE Signal Processing Magazine, 28(2):52–68, 2011.[3] J.Shi and J.Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000.[4] G.Liu, Z.Lin, S.Yan, J.Sun, Y.Yu, and Y.Ma.Robust recovery of subspace structures by low-rank representation.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013.[5] E.Elhamifar and R.Vidal.Sparse subspace clustering: Algorithm, theory, and applications.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781, 2013.[6] Y.Wang, Y.Jiang, Y.Wu, and Z.Zhou.Spectral clustering on multiple manifolds.IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011.[7] B.Cheng, G.Liu, J.Wang, Z.Huang, and S.Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011.[8] C.Lang, G.Liu, J.Yu, and S.Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.

第二篇:數(shù)據(jù)分析課程感想

數(shù)據(jù)分析課程感想

——XXXX級(jí)XX學(xué)院XX班XXXXXXXXXXX 接觸數(shù)據(jù)分析是從大學(xué)的計(jì)算機(jī)課上開始,但是了解得很少,于是在選修課上進(jìn)一步學(xué)習(xí)。通過(guò)學(xué)習(xí)我了解到數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)行動(dòng)。

數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。確實(shí)在課堂上我們也是主要通過(guò)看老師計(jì)算機(jī)數(shù)據(jù)分析軟件操作來(lái)學(xué)習(xí),所以可以知道計(jì)算機(jī)的應(yīng)用給數(shù)據(jù)分析帶來(lái)了新鮮血液,使得數(shù)據(jù)分析更具有操作性和實(shí)用性,在很大程度上方便了對(duì)大量數(shù)據(jù)進(jìn)行系統(tǒng)分析。

在課程上我們主要學(xué)習(xí)了運(yùn)用數(shù)據(jù)分析軟件進(jìn)行數(shù)據(jù)分析,比如插入表格,數(shù)據(jù)排列,數(shù)據(jù)分類等等。通過(guò)這些學(xué)習(xí)首先我們掌握的是對(duì)OFFICE軟件的一些基礎(chǔ)應(yīng)用,比如合并單元格,插入各類數(shù)據(jù)表格,對(duì)大量數(shù)據(jù)進(jìn)行快速排序等。這些技能不僅對(duì)于數(shù)據(jù)分析很有用,在以后的日常工作中,也可以幫助我們,因?yàn)樵诂F(xiàn)代社會(huì),熟練掌握計(jì)算機(jī)已經(jīng)是每個(gè)合格辦公人員的基本技能,而這些可以使我們繁重的文件數(shù)據(jù)處理工作更加輕松和得心應(yīng)手。

雖然在上課時(shí)看老師操作有時(shí)會(huì)覺得很難,但是一旦掌握會(huì)發(fā)現(xiàn)數(shù)據(jù)分析十分有用。在以后工作中,特別是營(yíng)銷工作中,可以發(fā)揮重要作用,比如,在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過(guò)程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過(guò)程,以提升有效性。一個(gè)企業(yè)的領(lǐng)導(dǎo)人要通過(guò)市場(chǎng)調(diào)查,分析所得數(shù)據(jù)以判定市場(chǎng)動(dòng)向,從而制定合適的生產(chǎn)及銷售計(jì)劃。而這些如果不使用數(shù)據(jù)分析,那么工作人員可能就要被掩埋在龐大而復(fù)雜的數(shù)據(jù)中了。尤其在如今大數(shù)據(jù)時(shí)代,行業(yè)領(lǐng)先企業(yè)都充分利用大數(shù)據(jù)分析,從而找到顧客偏好和新的營(yíng)銷熱點(diǎn),因此數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。

數(shù)據(jù)分析過(guò)程的主要活動(dòng)由識(shí)別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評(píng)價(jià)并改進(jìn)數(shù)據(jù)分析的有效性組成。以公司進(jìn)行顧客喜好數(shù)據(jù)分析為例。首先要確定收集哪些有效數(shù)據(jù),比如顧客對(duì)產(chǎn)品的滿意度,顧客的年齡,然后是確定收集數(shù)據(jù)的途徑和實(shí)施方案。比如發(fā)放調(diào)查問卷,開展網(wǎng)上問卷,電話訪問,信件郵寄,等等。之后是對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,這個(gè)環(huán)節(jié)就是我們課堂上主要學(xué)習(xí)的數(shù)據(jù)分析方法,比如對(duì)數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)等。通過(guò)對(duì)數(shù)據(jù)的分析可以得出顧客對(duì)于產(chǎn)品的滿意度,和產(chǎn)品改進(jìn)方向,當(dāng)然在數(shù)據(jù)分析過(guò)程中也許因?yàn)槟P瓦x擇和操作問題等出現(xiàn)數(shù)據(jù)分析偏差,所以最后還要對(duì)數(shù)據(jù)分析過(guò)程和結(jié)果進(jìn)行評(píng)估和改進(jìn)完善。

數(shù)據(jù)分析對(duì)于工作和生活有很大的便利性和必要性,所以我會(huì)在以后的生活學(xué)習(xí)中多多留心,爭(zhēng)取掌握更多數(shù)據(jù)分析技能。

第三篇:市場(chǎng)營(yíng)銷數(shù)據(jù)分析課程大綱

市場(chǎng)營(yíng)銷數(shù)據(jù)分析課程大綱

一、營(yíng)銷分析的組織框架和技術(shù)框架

如何更好的進(jìn)行企業(yè)積累的大量營(yíng)銷數(shù)據(jù)的統(tǒng)計(jì)分析和挖掘工作?通過(guò)解析不同企業(yè)的數(shù)據(jù)應(yīng)用實(shí)踐,本節(jié)與您分享營(yíng)銷數(shù)據(jù)分析的總體框架應(yīng)如何搭建...1.從現(xiàn)有的數(shù)據(jù)能分析什么?

2.現(xiàn)存的報(bào)告機(jī)制存在哪些問題

3.數(shù)據(jù)分析的技術(shù)架構(gòu)和組織架構(gòu)

4.實(shí)施營(yíng)銷數(shù)據(jù)分析思路和步驟

5.數(shù)據(jù)分析與挖掘技術(shù)簡(jiǎn)介

二、指標(biāo)分析

指標(biāo)分析是一種快速的企業(yè)績(jī)效分析手段,是衡量企業(yè)健康狀況的健康指標(biāo),本節(jié)介紹如何通過(guò)指標(biāo)構(gòu)建數(shù)據(jù)分析模型。

1.從一個(gè)績(jī)效考核表說(shuō)起

2.KPI的局限

3.搭建分析模型分析公司經(jīng)營(yíng)狀況

4.基于市場(chǎng)營(yíng)銷指標(biāo)的矩陣分析

5.利潤(rùn)分析矩陣

6.新產(chǎn)品分析矩陣

7.案例分析

三、數(shù)據(jù)規(guī)劃和數(shù)據(jù)收集

沒有數(shù)據(jù),營(yíng)銷分析就成了空中樓閣。本節(jié)介紹數(shù)據(jù)搜集的思路和方法,為營(yíng)銷分析奠定堅(jiān)實(shí)的基礎(chǔ)。

1.思考:應(yīng)該采集哪些數(shù)據(jù)

2.數(shù)據(jù)來(lái)源和收集途徑

3.構(gòu)建有效的數(shù)據(jù)采集系統(tǒng)

4.數(shù)據(jù)表的規(guī)劃和設(shè)計(jì)

5.低成本的數(shù)據(jù)收集手段

6.利用新技術(shù)手段簡(jiǎn)化數(shù)據(jù)收集

四、常用分析方法

數(shù)據(jù)分析不是空洞理論,還需要有科學(xué)的技術(shù)手段和方法,本節(jié)演練常用的數(shù)據(jù)分析方法

1.對(duì)比分析

2.多維分析和統(tǒng)計(jì)

3.時(shí)間序列分析

4.數(shù)據(jù)分布分析

5.方差分析

五、競(jìng)爭(zhēng)分析

企業(yè)總是在競(jìng)爭(zhēng)中壯大,如果能提前預(yù)知競(jìng)爭(zhēng)對(duì)手的信息和策略,企業(yè)更容易成功。

1.如何界定競(jìng)爭(zhēng)對(duì)手

2.市場(chǎng)競(jìng)爭(zhēng)的四個(gè)層次

3.需求的交叉彈性

4.品牌轉(zhuǎn)換矩陣

5.行業(yè)競(jìng)爭(zhēng)力分析

6.競(jìng)爭(zhēng)分析矩陣

7.競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)收集

六、市場(chǎng)調(diào)查與置信度分析

市場(chǎng)調(diào)研是合法獲取數(shù)據(jù)的重要來(lái)源,也是快速了解市場(chǎng)反應(yīng)的途徑,本節(jié)討論市場(chǎng)調(diào)查的策劃和統(tǒng)計(jì)方法。

1.如何策劃一次市場(chǎng)調(diào)查

2.常規(guī)調(diào)查方法和網(wǎng)上調(diào)查方法

3.如何進(jìn)行統(tǒng)計(jì)學(xué)上有效的抽樣調(diào)查

4.理解誤差的來(lái)源分析

5.如何對(duì)抽樣結(jié)果進(jìn)行統(tǒng)計(jì)

6.通過(guò)置信度分析計(jì)算調(diào)查誤差

七、客戶細(xì)分與精確營(yíng)銷

無(wú)差別的大眾媒體營(yíng)銷已經(jīng)無(wú)法滿足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精確營(yíng)銷是現(xiàn)在及未來(lái)的發(fā)展方向,而客戶細(xì)分是精確營(yíng)銷的基礎(chǔ)。

1.精確營(yíng)銷與客戶細(xì)分

2.客戶細(xì)分的價(jià)值

3.基于數(shù)據(jù)驅(qū)動(dòng)的細(xì)分

4.客戶數(shù)據(jù)庫(kù)分析的RFM指標(biāo)

5.基于聚類細(xì)分方法的案例解析

6.細(xì)分結(jié)果的應(yīng)用

八、商業(yè)預(yù)測(cè)技術(shù)

預(yù)測(cè)是企業(yè)重要的決策依據(jù),企業(yè)通過(guò)預(yù)測(cè)技術(shù)可以估計(jì)下一季度、的市場(chǎng)規(guī)模、市場(chǎng)占有率、銷售量等。

1.預(yù)測(cè)責(zé)任者與支持者

2.預(yù)測(cè)的組織流程

3.不同的預(yù)測(cè)模型各自的優(yōu)缺點(diǎn)

4.多元回歸分析:如何分析多個(gè)因素對(duì)目標(biāo)值的影響程度,包含

i.如何建立多變量業(yè)務(wù)預(yù)測(cè)模型

ii.如何評(píng)估業(yè)務(wù)模型的有效性

iii.企業(yè)外部變量(例如經(jīng)濟(jì)宏觀數(shù)據(jù))的選擇和過(guò)濾

5.回歸分析演練:如何量化分析廣告的效果

第四篇:項(xiàng)目數(shù)據(jù)分析師學(xué)習(xí)數(shù)據(jù)分析師課程

CPDA 項(xiàng)目數(shù)據(jù)分析師整理

項(xiàng)目數(shù)據(jù)分析師學(xué)習(xí)數(shù)據(jù)分析課程

項(xiàng)目數(shù)據(jù)分析師(英文簡(jiǎn)稱CPDA)是專業(yè)從事投資和運(yùn)營(yíng)項(xiàng)目數(shù)據(jù)分析的高級(jí)決策人,通過(guò)掌握大量行業(yè)數(shù)據(jù)以及科學(xué)的計(jì)算工具,將經(jīng)濟(jì)學(xué)原理用數(shù)學(xué)模型表示,科學(xué)合理的分析投資和運(yùn)營(yíng)項(xiàng)目未來(lái)的收益及風(fēng)險(xiǎn)情況,為做出科學(xué)合理的決策提供依據(jù)。

項(xiàng)目數(shù)據(jù)分析師主要包括從事數(shù)據(jù)挖掘和投資兩大領(lǐng)域,在投資分析、信貸融資、企業(yè)經(jīng)營(yíng)管理、企業(yè)戰(zhàn)略規(guī)劃、決策管理等影響政府和企業(yè)重大決策的領(lǐng)域擔(dān)任重要角色,主要為政府和企業(yè)進(jìn)行重大決策提供科學(xué)、真實(shí)和準(zhǔn)確的依據(jù)。

授課方式:

面授

項(xiàng)目數(shù)據(jù)分析師培訓(xùn)課程涉及到經(jīng)濟(jì)學(xué)、市場(chǎng)營(yíng)銷學(xué)、財(cái)務(wù)管理學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、預(yù)測(cè)學(xué)、金融學(xué)等多方面知識(shí),需要學(xué)員具備全面性理論基礎(chǔ)知識(shí)貯備。我們對(duì)各個(gè)學(xué)科中項(xiàng)目分析所要用到的知識(shí)點(diǎn)進(jìn)行了深入分析,在講義中詳細(xì)說(shuō)明,使學(xué)員可在相對(duì)準(zhǔn)確的領(lǐng)域內(nèi)迅速掌握知識(shí)并加以運(yùn)用。做到能夠讓學(xué)員將課本上所學(xué)的東西真正變?yōu)榭梢岳玫挠行Чぞ摺_h(yuǎn)程學(xué)習(xí)

時(shí)間為一年整,采取先進(jìn)的同步教學(xué)方式,保證學(xué)習(xí)質(zhì)量,具體特點(diǎn)如下:

a、面授期間(8天面授),更新課程五次,通過(guò)每周的更新課程,讓學(xué)員不僅可以在面授前提前預(yù)習(xí)基礎(chǔ)知識(shí),而且可以通過(guò)遠(yuǎn)程學(xué)習(xí)中心提交作業(yè)、知識(shí)點(diǎn)自我測(cè)試、考試復(fù)習(xí)、習(xí)題解答、在線答疑、案例參與等綜合項(xiàng)目更好的掌握知識(shí)。

b、面授結(jié)束后,學(xué)員還有11個(gè)月的遠(yuǎn)程學(xué)習(xí)時(shí)間,每月一次的課件更新,使學(xué)員不僅能順利適應(yīng)項(xiàng)目數(shù)據(jù)分析師的認(rèn)證考試,而且可以掌握各種數(shù)據(jù)分析的拓展知識(shí)和技能,為分析師在未來(lái)能夠勝任專業(yè)分析工作奠定深厚基礎(chǔ)。

c、遠(yuǎn)程學(xué)習(xí)不僅有豐富的文字學(xué)習(xí)內(nèi)容,而且大比例增加了音頻、視頻課件,使學(xué)員可以通過(guò)生動(dòng)的課件完成階段性學(xué)習(xí)。

d、遠(yuǎn)程學(xué)習(xí)中心為學(xué)員提供學(xué)習(xí)計(jì)劃制定、班級(jí)交流、繼續(xù)教育等功能,幫助學(xué)員自覺學(xué)習(xí)、實(shí)現(xiàn)更好的學(xué)習(xí)效果。

適用人群:

1、企業(yè)單位:

參與企業(yè)經(jīng)營(yíng)、決策管理、項(xiàng)目投資的職業(yè)經(jīng)理人或高級(jí)決策人;

參與企業(yè)項(xiàng)目運(yùn)營(yíng)環(huán)節(jié)中涉及的包括市場(chǎng)分析、市場(chǎng)研究、生產(chǎn)、研究、評(píng)價(jià)、銷售等各個(gè)環(huán)節(jié)的工作人員。

2、政府、事業(yè)機(jī)構(gòu):負(fù)責(zé)項(xiàng)目審核、審批和招商引資、項(xiàng)目評(píng)估、項(xiàng)目決策、政策制訂等工作的政府機(jī)構(gòu)領(lǐng)導(dǎo)者及相關(guān)從業(yè)者。

3、金融機(jī)構(gòu):銀行或非銀行金融機(jī)構(gòu)、管理咨詢公司、風(fēng)險(xiǎn)投資、金融產(chǎn)品研發(fā)、信貸等相關(guān)工作人員。

4、事務(wù)所:項(xiàng)目數(shù)據(jù)分析師事務(wù)所、會(huì)計(jì)師事務(wù)所、資產(chǎn)評(píng)估事務(wù)所、稅務(wù)師事務(wù)所及律師事務(wù)所等工作人員。

5、學(xué)校:學(xué)習(xí)經(jīng)濟(jì)學(xué)、財(cái)務(wù)、統(tǒng)計(jì)、投資、金融和企業(yè)管理等相關(guān)專業(yè)的在校學(xué)生(畢業(yè)后才能取證)以及應(yīng)屆畢業(yè)生。

第五篇:數(shù)據(jù)挖掘課程體會(huì)

數(shù)據(jù)挖掘課程體會(huì)

學(xué)習(xí)數(shù)據(jù)挖掘這門課程已經(jīng)有一個(gè)學(xué)期了,在這十余周的學(xué)習(xí)過(guò)程中,我對(duì)數(shù)據(jù)挖掘這門課程的一些技術(shù)有了一定的了解,并明確了一些容易混淆的概念,以下主要談一下我的心得體會(huì)。

近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)、模型或規(guī)則的過(guò)程。作為一類深層次的數(shù)據(jù)分析方法,它利用了數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)等多方面的技術(shù)。

要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。

數(shù)據(jù)挖掘的研究領(lǐng)域非常廣泛,主要包括數(shù)據(jù)庫(kù)系統(tǒng)、基于知識(shí)的系統(tǒng)、人工智能、機(jī)器學(xué)習(xí)、知識(shí)獲取、統(tǒng)計(jì)學(xué)、空間數(shù)據(jù)庫(kù)和數(shù)據(jù)可視化等領(lǐng)域。主要是可以做以下幾件事:分類、估計(jì)、預(yù)測(cè)、關(guān)聯(lián)分析、聚類分析、描述和可視化、復(fù)雜數(shù)據(jù)類型挖掘。在這里就不一一介紹了。

在學(xué)習(xí)關(guān)聯(lián)規(guī)則的時(shí)候,提出了一個(gè)關(guān)于啤酒與紙尿布的故事:在一家超市里,紙尿布與啤酒被擺在一起出售,但是這個(gè)奇怪的舉措?yún)s使得啤酒和紙尿布的銷量雙雙增加了。其實(shí),這是由于這家超市對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,在這些原始交易數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。從而意外的發(fā)現(xiàn)跟紙尿布一起購(gòu)買最多的商品竟是啤酒。按我們的常規(guī)思維,啤酒與紙尿布是兩個(gè)毫無(wú)關(guān)聯(lián)的商品,但是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析后,卻可以尋求到這一有價(jià)值的規(guī)律。這個(gè)故事在一定程度上說(shuō)明了數(shù)據(jù)挖掘技術(shù)的巨大價(jià)值。

總之,非常感謝周教員在這十余周的精彩授課,讓我受益匪淺,我會(huì)繼續(xù)學(xué)習(xí)這門課程,努力為今后的課題研究或論文打好基礎(chǔ)。

下載大數(shù)據(jù)課程報(bào)告word格式文檔
下載大數(shù)據(jù)課程報(bào)告.doc
將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
點(diǎn)此處下載文檔

文檔為doc格式


聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

相關(guān)范文推薦

    大數(shù)據(jù)讀書報(bào)告

    大數(shù)據(jù)讀書報(bào)告 網(wǎng)絡(luò)13-1戴崇卓 大數(shù)據(jù)的概念 大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力......

    大數(shù)據(jù)調(diào)研報(bào)告

    大數(shù)據(jù)技術(shù)市場(chǎng)調(diào)查報(bào)告:“BigData浪潮”迫使企業(yè)做出抉擇 發(fā)表于2012-02-06 13:26| 2517次閱讀| 來(lái)源CSDN| 0 條評(píng)論| 作者李智 數(shù)據(jù)中心浪潮數(shù)據(jù)挖掘數(shù)據(jù)分析大數(shù)據(jù) 摘要:......

    數(shù)據(jù)分析報(bào)告格式

    數(shù)據(jù)分析報(bào)告格式分析報(bào)告的輸出是是你整個(gè)分析過(guò)程的成果,是評(píng)定一個(gè)產(chǎn)品、一個(gè)運(yùn)營(yíng)事件的定性結(jié)論,很可能是產(chǎn)品決策的參考依據(jù),既然這么重要那當(dāng)然要寫好它了。我認(rèn)為一份好......

    2015數(shù)據(jù)分析報(bào)告

    2015數(shù)據(jù)分析報(bào)告范文 第1篇:項(xiàng)目數(shù)據(jù)分析報(bào)告 (1)項(xiàng)目數(shù)據(jù)分析報(bào)告簡(jiǎn)介: 項(xiàng)目數(shù)據(jù)分析報(bào)告是"項(xiàng)目數(shù)據(jù)分析師"以客觀的態(tài)度和謹(jǐn)慎的作風(fēng),通過(guò)科學(xué)的市場(chǎng)調(diào)研,運(yùn)用專業(yè)的分析方法,......

    大數(shù)據(jù)學(xué)術(shù)會(huì)議報(bào)告

    Big and Open Date :Challenges for Smart City Victoria Lopez Victoria Lopez任教于西班牙馬德里Complutense大學(xué),其在計(jì)算機(jī)軟件,計(jì)算機(jī)應(yīng)用技術(shù),計(jì)算機(jī)網(wǎng)絡(luò),人工智能,管......

    數(shù)據(jù)分析報(bào)告格式

    數(shù)據(jù)分析報(bào)告格式分析報(bào)告的輸出是是你整個(gè)分析過(guò)程的成果,是評(píng)定一個(gè)產(chǎn)品、一個(gè)運(yùn)營(yíng)事件的定性結(jié)論,很可能是產(chǎn)品決策的參考依據(jù),既然這么重要那當(dāng)然要寫好它了。我認(rèn)為一份好......

    數(shù)據(jù)分析報(bào)告(大全)

    數(shù)據(jù)分析報(bào)告(一)一、報(bào)告概述回顧2015,這是不平靜的一年,酒店旅游行業(yè)發(fā)生了眾多事情。酒店之間收購(gòu)之戰(zhàn),當(dāng)酒店產(chǎn)品被迫下架;當(dāng)OTA控制酒店低價(jià)競(jìng)爭(zhēng);當(dāng)酒店支付高傭金低報(bào)價(jià);當(dāng)......

    如何寫數(shù)據(jù)分析報(bào)告

    如何寫數(shù)據(jù)分析報(bào)告首先,要有一個(gè)好的框架,跟蓋房子一樣,好的分析肯定是有基礎(chǔ)有層次,有基礎(chǔ)堅(jiān)實(shí),并且層次明了才能讓閱讀者一目了然,架構(gòu)清晰、主次分明才能讓別人容易讀懂,這樣才......

主站蜘蛛池模板: 免费人成视频xvideos入口| 久久男人av资源网站无码| 无遮挡国产高潮视频免费观看| 少妇厨房愉情理伦片免费| 精品综合久久久久久97超人| 99久久免费国产精品四虎| 豆国产97在线 | 亚洲| 无码成人片在线播放| 国产熟女一区二区三区五月婷| 国产大屁股视频免费区| 国产亚洲精品久久久久的角色| 国产精品 欧美 亚洲 制服| 午夜成人无码福利免费视频| 亚洲国产精品成人av在线| 成人亚洲性情网站www在线观看| 九九线精品视频在线观看| 亚洲男人第一av网站| 日韩精品欧美在线视频在线| 亚洲综合无码明星蕉在线视频| 又大又粗弄得我出好多水| 亚洲av无码一区二区三区乱子伦| 午夜成午夜成年片在线观看| 国产成人无码aa精品一区| 国产精品美女久久久m| 无码永久成人免费视频| 久久久久久久久免费看无码| 国产精品久久久久久超碰| 一本色道久久综合无码人妻| 国内精品久久久久影院薰衣草| 豆国产93在线 | 亚洲| 无码专区永久免费av网站| 在线播放五十路熟妇| 久久天堂av女色优精品| 亚洲国产精品成人av在线| 国产精品国产三级国产av中文| 中文无码不卡的岛国片| 国产成人无码18禁午夜福利网址| 中国妇女做爰视频| 99热精品国产三级在线| 久久精品人人做人人爱爱漫画| 无码国产精品一区二区免费式芒果|