第一篇:機器學習中關于模型評估方法總結
模型評估
我們在建立模型之后,接下來就要去評估模型,確定這個模型是否有用。在實際情況中,我們會用不同的度量去評估我們的模型,而度量的選擇取決于模型的類型和模型以后要做的事。
1.1 二分類評估
二分類模型的評估。
1.1.1 業界標準叫法
二分類評估;分類算法。
1.1.2 應用場景
信息檢索、分類、識別、翻譯體系中。
1.1.2.1 新聞質量分類評估 對于新聞APP,其通過各種來源獲得的新聞,質量通常良莠不齊。為了提升用戶體驗,通常需要構建一個分類器模型分類低質新聞和優質新聞,進而進行分類器的評估。
1.1.2.2垃圾短信分類評估 垃圾短信已經日益成為困擾運營商和手機用戶的難題,嚴重影響人們的生活、侵害到運營商的社會公眾形象。構建二分類器模型對垃圾短信和正常短信進行分類,并進行二分類評估。
1.1.3 原理
1.1.3.1混淆矩陣 混淆矩陣(Confusion Matrix)。來源于信息論,在機器學習、人工智能領域,混淆矩陣又稱為可能性表格或錯誤矩陣,是一種矩陣呈現的可視化工具,用于有監督學習,在無監督學習中一般叫匹配矩陣。混淆矩陣是一個N*N的矩陣,N為分類(目標值)的個數,假如我們面對的是一個二分類模型問題,即N=2,就得到一個2*2的矩陣,它就是一個二分類評估問題。混淆矩陣的每一列代表預測類別,每一列的總數表示預測為該類別的數據的數目,每一行代表了數據的真實歸屬類別,每一行的數據總數表示該類別的實例的數目。
圖1 2*2混淆矩陣圖
陽性(P,Positive): 陰性(N,Negative):
真陽性(TP,True Positive):正確的肯定,又稱“命中”(Hit);被模型預測為正類的正樣本。
真陰性(TN,True Negative):正確的否定,又稱“正確拒絕”(correct rejection),被模型預測為負類的負樣本。
偽陽性(FP,false Positive):錯誤的肯定,又稱“假警報”(false alarm);被模型預測為負類的正樣本。
偽陰性(FN,false Negative):錯誤的否定,又稱“未命中”(miss);被模型預測為正類的負樣本。
靈敏度(Sensitivity)或真陽性率(TPR,Ture Negative Rate):又稱“召回率”(recall)、命中率(Hit Rate)。在陽性值中實際被預測正確所占的比例。TPR=TP/P=TP/(TP+FN)偽陽性率(FPR,false positive rate):又稱“假正類率”、“錯誤命中率”、“假警報率”。FPR=FP/(FP+TN)特異度(SPC,Specificity)或真陰性率:在陰性值中實際被預測正確所占的比例。SPC=TN/N=TN/(FP+TN)=1-FPR 假發現率(FDR,false discovery rate):FDR=FP/(FP+TP)=1-TPR 準確度(ACC):預測正確的數占樣本數的比例。ACC=(TP+TN)/(P+N)陽性預測值(PPV,positive predictive value)或精度(precision):陽性預測值被預測正確的比例。PPV=TP/(TP+FP)陰性預測值(NPV,negative predictive value):陰性預測值被預測正確的比例。NPV=TN/(TN+FN)
圖2 一個模型的2*2混淆矩陣圖示例
我們可以看出,這個模型的準確度是88%,陽性預測值比較高而陰性預測值較低,對于靈敏度和特異度也是相同。這是因為我們選的閾值導致的,若我們降低閾值,這兩對數值就會變得接近。1.1.3.2 ROC曲線 ROC曲線(Receiver Operation Characteristic Curve),中文名叫“接受者操作特征曲線”,其實是從混淆矩陣衍生出來的圖形,其橫坐標是Specificity(特異度),縱坐標是Sensitivity(靈敏度)。
圖3 ROC曲線圖
隨著閾值的減小,更多的值歸于正類,敏感度和特異度也相應增加。而那條45度線是一條參照線,ROC曲線要與這條參照線比較。如果我們不用模型,直接把客戶分類,我們得到的曲線就是這條參照線,然而,我們使用了模型進行預測,就應該比隨機的要好,所以,ROC曲線要盡量遠離參照線,越遠,我們的模型預測效果越好。ROC曲線反映了錯誤命中率和靈敏度之前權衡的情況,即靈敏度隨著錯誤命中率遞增的情況下,誰增長的更快,快多少。靈敏度增長的越快,曲線越往上屈,反映了模型的分類性能越好。當正負樣本不平衡時,這種模型評價方式比起一般的精確度評價方式好處尤為明顯。
ROC曲線快速爬向左上,表示模型準確預測數據。一般情況下,ROC曲線都應該處于參照線的上方。1.1.3.3AUC(ROC曲線下面積 Area Under ROC Curve)
圖3 AUC曲線圖
ROC曲線是根據與45度參照線比較判斷模型的好壞,但這只是一種定性的分析,如果需要定量的計算判斷,就用到了AUC,即:ROC曲線下面積。參考線的面積是0.5,ROC曲線越往左上方靠攏,AUC就越大(這里的面積是0.869),模型評估的性能越好,完美分類的AUC值是1。1.1.3.4基尼系數 基尼系統經常用于分類問題,公式:Gini=2*AUC-1。基尼系數大于60%,就算好模型。1.1.3.5
LIFT(提升)
圖3 LIFT提升圖
LIFT=(TP/(TP+FP))/((TP+FN)/(TP+FN+FP+TN))LIFT越大,模型的預測效果越好。LIFT值應一直大于1,如果LIFT值等于1,模型就沒有任何提升了。橫軸是預測為正例的比例,即:(TP+FN)/(TP+FN+FP+TN)1.1.3.6
Gains(增益)
圖3 Gains增益圖
與LIFT類似,區別在于縱軸的刻度不同,橫軸相同。Gains= TP/(TP+FP)=LIFT*((TP+FN)/(TP+FN+FP+TN))
1.1.3.7
K-S(Kolmogorov-Smirnov chart)圖 K-S圖是用來度量陽性和陰性分類區分程度的。若我們把總體嚴格按照陽性和陰性分成兩組,則K-S值為100,如果我們是隨機區分陽性和陰性,則K-S值為0。所以,分類模型的K-S值在0到100之間,值越大,模型表現越好。
1.2 多分類評估
多分類模型的評估。
1.2.1 業界標準叫法
多分類評估。
1.2.2 應用場景
1.2.2.1商品圖片分類 淘寶、京東等電商含有數以百萬級的商品圖片,“拍照購”等應用必須對用戶提供的商品圖片進行分類。
1.2.3 原理
同1.1.3節。
1.2.3.1 混淆矩陣 如果有150個樣本數據,這些數據分成3類,每類50個。分類結束后得到的混淆矩陣如下:
每一行之和為50,表示50個樣本。第一行說明類1的50個樣本有43個分類正確,5個錯分為類2,2個錯分為類3。第一行第一列中的43表示有43個實際歸屬第一類的實例被預測為第一類,同理,第二行第一列的2表示有2個實際歸屬為第二類的實例被錯誤預測為第一類。
1.2.4 不同應用場景使用的方法及參數
1.2.4.1 混淆矩陣
混淆矩陣一般只能用于分類輸出模型中。
對于混淆矩陣,一般情況下,我們只關心其中一個定義度量。例如:在醫藥公司,一般會更加關心最小化誤診率,也就是高特異度。而在磨損模型中,我們更關心的是靈敏度。1.2.4.2ROC和AUC曲線 ROC曲線的一個應用場景是在人臉檢測中,很多相關的研究或者企業評價他們的檢測性能程度是通過ROC曲線來評定的。
ROC和AUC曲線常被用來評價一個二值分類器的優劣。
1.3 Spark模型預測
Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。是一種計算框架。
1.3.1 業界標準叫法
Spark。
1.3.2 應用
1.3.2.1 騰訊社交廣告平臺—廣點通 廣點通是最早使用Spark的應用之一。騰訊大數據精準推薦借助Spark快速迭代的優勢,圍繞“數據+算法+系統”這套技術方案,實現了在“數據實時采集、算法實時訓練、系統實時預測”的全流程實時并行高維算法,最終成功應用于廣點通pCTR投放系統上,支持每天上百億的請求量。基于日志數據的快速查詢系統業務構建于Spark之上的Shark,利用其快速查詢以及內存表等優勢,承擔了日志數據的即席查詢工作。在性能方面,普遍比Hive高2-10倍,如果使用內存表的功能,性能將會比hive快百倍。
1.3.2.2 Yahoo—Audience Expansion(讀者擴張)Yahoo將Spark用在Audience Expansion中的應用。Audience Expansion是廣告中尋找目標用戶的一種方法:首先廣告者提供一些觀看了廣告并且購買產品的樣本客戶,據此進行學習,尋找更多可能轉化的用戶,對他們定向廣告。Yahoo采用的算法是logistic regression。同時由于有些SQL負載需要更高的服務質量,又加入了專門跑Shark的大內存集群,用于取代商業BI/OLAP工具,承擔報表/儀表盤和交互式/即席查詢,同時與桌面BI工具對接。目前在Yahoo部署的Spark集群有112臺節點,9.2TB內存。1.3.2.3 淘寶—搜索和廣告業務 阿里搜索和廣告業務,最初使用Mahout或者自己寫的MR來解決復雜的機器學習,導致效率低而且代碼不易維護。淘寶技術團隊使用了Spark來解決多次迭代的機器學習算法、高計算復雜度的算法等。將Spark運用于淘寶的推薦相關算法上,同時還利用Graphx解決了許多生產問題,包括以下計算場景:基于度分布的中樞節點發現、基于最大連通圖的社區發現、基于三角形計數的關系衡量、基于隨機游走的用戶屬性傳播等。
1.3.2.4 優酷土豆—視頻推薦和廣告業務 優酷土豆在使用Hadoop集群的突出問題主要包括:第一是商業智能BI方面,分析師提交任務之后需要等待很久才得到結果;第二就是大數據量計算,比如進行一些模擬廣告投放之時,計算量非常大的同時對效率要求也比較高,最后就是機器學習和圖計算的迭代運算也是需要耗費大量資源且速度很慢。最終發現這些應用場景并不適合在MapReduce里面去處理。通過對比,發現Spark性能比MapReduce提升很多。首先,交互查詢響應快,性能比Hadoop提高若干倍;模擬廣告投放計算效率高、延遲小(同hadoop比延遲至少降低一個數量級);機器學習、圖計算等迭代計算,大大減少了網絡傳輸、數據落地等,極大的提高的計算性能。目前Spark已經廣泛使用在優酷土豆的視頻推薦(圖計算)、廣告業務等。
1.3.3 原理
1.3.3.1Spark生態圈 如下圖所示為Spark的整個生態圈,最底層為資源管理器,采用Mesos、Yarn等資源管理集群或者Spark自帶的Standalone模式,底層存儲為文件系統或者其他格式的存儲系統如Hbase。Spark作為計算框架,為上層多種應用提供服務。Graphx和MLBase提供數據挖掘服務,如圖計算和挖掘迭代計算等。Shark提供SQL查詢服務,兼容Hive語法,性能比Hive快3-50倍,BlinkDB是一個通過權衡數據精確度來提升查詢晌應時間的交互SQL查詢引擎,二者都可作為交互式查詢使用。Spark Streaming將流式計算分解成一系列短小的批處理計算,并且提供高可靠和吞吐量服務。
圖4 spark生態圈圖
1.3.3.2 Spark運行框架
圖5 spark運行框架圖
Spark的運行框架首先有集群資源管理服務(Cluster Manager)和運行作業任務節點(Worker Node),然后就是每個應用的任務控制節點Driver和每個機器節點上有具體任務的執行進程。與MR計算框架相比,Executor有二個優點:一個是多線程來執行具體的任務,而不是像MR那樣采用進程模型,減少了任務的啟動開稍。二個是Executor上會有一個BlockManager存儲模塊,類似于KV系統(內存和磁盤共同作為存儲設備),當需要迭代多輪時,可以將中間過程的數據先放到這個存儲系統上,下次需要時直接讀該存儲上數據,而不需要讀寫到hdfs等相關的文件系統里,或者在交互式查詢場景下,事先將表Cache到該存儲系統上,提高讀寫IO性能。另外Spark在做Shuffle時,在Groupby,Join等場景下去掉了不必要的Sort操作,相比于MapReduce只有Map和Reduce二種模式,Spark還提供了更加豐富全面的運算操作如filter,groupby,join等。1.3.3.3 Spark與hadoop
? Hadoop有兩個核心模塊,分布式存儲模塊HDFS和分布式計算模塊Mapreduce ? spark本身并沒有提供分布式文件系統,因此spark的分析大多依賴于Hadoop的分布式文件系統HDFS ? Hadoop的Mapreduce與spark都可以進行數據計算,而相比于Mapreduce,spark的速度更快并且提供的功能更加豐富 1.3.3.4 Spark運行流程
圖5 spark運行流程圖
1.構建Spark Application的運行環境,啟動SparkContext。2.SparkContext向資源管理器(可以是Standalone,Mesos,Yarn)申請運行Executor資源,并啟動StandaloneExecutorbackend。3.Executor向SparkContext申請Task。4.SparkContext將應用程序分發給Executor。
5.SparkContext構建成DAG圖,將DAG圖分解成Stage、將Taskset發送給Task Scheduler,最后由Task Scheduler將Task發送給Executor運行。
6.Task在Executor上運行,運行完釋放所有資源。1.3.3.5 Spark運行特點
1.每個Application獲取專屬的executor進程,該進程在Application期間一直駐留,并以多線程方式運行Task。這種Application隔離機制是有優勢的,無論是從調度角度看(每個Driver調度他自己的任務),還是從運行角度看(來自不同Application的Task運行在不同JVM中),當然這樣意味著Spark Application不能跨應用程序共享數據,除非將數據寫入外部存儲系統。2.Spark與資源管理器無關,只要能夠獲取executor進程,并能保持相互通信就可以了。
3.提交SparkContext的Client應該靠近Worker節點(運行Executor的節點),最好是在同一個Rack里,因為Spark Application運行過程中SparkContext和Executor之間有大量的信息交換。4.Task采用了數據本地性和推測執行的優化機制。
1.4 回歸評估
對回歸模型的評估。
1.4.1 業界標準叫法
回歸模型評估。
1.4.2 應用
1.4.3 原理及方法
1.4.3.1
均方根誤差(Root Mean Squared Error,RMSE)RMSE是一個衡量回歸模型誤差率的常用公式。然而,它僅能比較誤差是相同單位的模型。
1.4.3.2
相對平方誤差(Relative Squared Error,RSE)與RMSE不同,RSE可以比較誤差是不同單位的模型。
1.4.3.3
平均絕對誤差(Mean Absolute Error,MAE)MAE與原始數據單位相同,它僅能比較誤差是相同單位的模型。量級近似與RMSE,但是誤差值相對小一些。
1.4.3.4
相對絕對誤差(Relative Absolute Error,RAE)
1.4.3.5
相對絕對誤差(Coefficient of Determination)
決定系數(R2)回歸模型匯總了回歸模型的解釋度,由平方和術語計算而得。R2描述了回歸模型所解釋的因變量方差在總方差中的比例。R2很大,即自變量和因變量之間存在線性關系,如果回歸模型是“完美的”,SSE為零,則R2為1。R2小,則自變量和因變量之間存在線性關系的證據不令人信服。如果回歸模型完全失敗,SSE等于SST,沒有方差可被回歸解釋,則R2為零。
1.4.3.6 標準化殘差圖(Standardized Residuals Plot)標準化殘差圖是一個對在標準化尺度上顯示殘差分散圖有幫助的可視化工具。標準化殘差圖與普通殘差圖之間沒有實質不同,唯一區別是在Y軸的標準化可以更容易檢測到潛在的異常值。
第二篇:責任心評估模型
責任心評估模型
評估一個人的責任心比較流行的方式有兩種:
一是:從流程上評估,二是:從“態度”和“行為”兩個維度去評估。
所謂從流程上評估,亦即通過考察一個人在做某件事情或完成某個目標中從事前事中事后所思所為,去考查此人的責任心的方式。考查3個階段2大要素,分別是事前計劃與準備,事中控制與推進,事后總結與助攻。
從態度和行為上評估,實際上時考察一個人做人和做事兩方面表現,概括起來可從六個維度進行考察,進而評價一個人的責任心的方式。
下面就本人幾年來工作的經驗,簡單地介紹一下第一種評估方式的建模和操作方法:
事前
各軸滿分5分,據知行合一的原理,有計劃有行動才得分,有計劃無行動和無計劃無行動均無分,無計劃有行動(調動了資源),根據事中推進的難易評分。只是要注意將這些定性的事后
事中
評分準則通過一定的狀態描述來取評分標準,以近似評價各維度分數。
獲取信息的方式多種多樣,可以是情景演示,可以是執行游戲,也可以是問話,如下面:在過去的學習、生活、工作中你處理過不少事情,舉一件印象比較深刻的,描述一下當時你是怎么考慮的,采取了哪些行動,效果又怎樣?
第一種方式評價結果稍顯粗略,但易于操作。第二種方式則較為精細,操作起來須費些功夫。根據評價要素的不同,第二種方式的評價模型如下(我們仍然用雷達圖):
做事 關注細節做人 敬業精神543210做人 積極主動分值分值分值做人 為人正直做事 過程監控做事 表率作用
最簡單易行的考察方式-------問話 要素
一、敬業精神
釋義:能夠盡職盡責第履行工作職責,試圖調動各種資源、發揮創造力地完成工作 問話
1、在以往的工作、學習和生活中,你感覺壓力最大的是什么?怎么想的?怎么做的?效果怎么樣? 答案越正向和肯定,分值越高。
要素
二、積極主動
釋義:在沒有外界壓力的情況下,能夠自覺地完成崗位職責之外且無人負責的工作。問話
2、你身邊的電話響了,然而你的同事又不在位上,你會怎么辦?
A 通常要等它響幾聲,之后看一下沒別人認,我再接。B 如果不忙就去接,忙了就不接。
C 通常不去接,因為不知道對方是誰或者不知道是什么事情,怕尷尬。D 通常去接,并告訴對方自己同事不在,讓他一會再打過來。E 通常去接,并了解一下對方是誰或什么事情,以便轉告。分值依次是:1,2,3,4,5
要素
三、為人正直
釋義:不考慮個人私利,為了公司的利益,敢于堅持原則,不怕得罪人,敢于承擔責任。問話
3、假如你們公司規定:遲到不能超過三次,三次以上者每次計曠工半天。而在你的考勤核算中有一個人,有一個平時德高望重的干部偶爾遲到超了一次。當他找你問及此事時,你怎么講? A遲到是偶然的,又是老員工,可以酌情放寬,我帶著你去跟領導反映一下。B領導規定這樣的,超過一次就要算半天曠工,我也沒辦法,要不你去找領導問問。C這是公司的規定,我們只能按制度辦
D 您是知道的,公司既然規定了,我們就要帶頭執行呀!E這只是偶然,我想咱們做領導的不會再有第二次了。分值依次是:1,2,3,4,5
要素
四、表率作用
釋義:為實現公司戰略目標和工作結果的達成,用自己的行動去影響他人和帶動他人。問話
4、某股份制民營企業,某階段核心領導狠拼業績。公司明文規定:所有職工必須穿工衣上班,且公司給每個員工都發了兩套工衣,包括領導。一個下雨天的上班時間,車間的絕大部分員工都穿工衣;辦公室人員有一半人穿了,一半人沒穿,其中有些核心領導也沒穿。作為公司這項制度的監督落實者,你怎么看?
A 既然是下雨天,特殊情況特殊考慮嘛,個別人沒穿也沒事。B 領導都沒穿,看來對天氣的情況都有考慮,今天就算了。
D 辦公室里的領導和其他辦公職員跟車間不同,沒必要整天都穿那套工衣服,將來考慮給定做不同的制服。
E 調查一下,情況是偶然的,要先匯報給直接上司知道,之前也出現過或許多人都有不同的看法,要想一定的對策呈報給上司。分值依次是:1,2,3,4,5
要素
五、過程監控
釋義:根據工作計劃,對工作過程進行監督,確保工作結果的達成
問話
5、你是某個項目組的成員之一,項目的關鍵問題都已經攻克,整個項目也進入尾聲,就差某些局部細節的復查和資料的整理。這時有幾個人提出喝茶、唱歌等活動放松一下,你怎么做?
A 自己不喜歡或者累了,不去湊熱鬧。
B 看一下別的人,選擇出去放松的人多,就跟著去。C無所謂,去也行,不去也行。
D最后的工作做完了再說,不然我睡不著覺的。
E 按照分工,要求項目組的部分人留守,把工作做完再去。分值依次是:1,2,3,4,5
要素
六、關注細節
釋義:考慮問題周密,做事細致,追求工作成果的完美。
問話
6、公司要在總部組織全國性的營銷會議,將歷時3天,由行政副總領銜統籌,組成會務小組,負責整個會務的接待和會議服務工作。副總已經給各小組成員分工明確了,大家各自也很清楚自己該在什么時間什么地點做做什么事情,做為會務組的協調者,你該做些什么呢?
描述的要點要切合工作開展的五步驟給分:
1、有目標分解
2、有危機計劃
3、有時間節點
4、有過程控制
5、有階段總結 每切合一點給1分。
第三篇:自然語言處理常用模型方法總結
自然語言處理常用模型使用方法總結
一、N元模型
思想:
如果用變量W代表一個文本中順序排列的n個詞,即W = W1W2…Wn,則統計語言模型的任務是給出任意詞序列W 在文本中出現的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不難看出,為了預測詞Wn的出現概率,必須已知它前面所有詞的出現概率。從計算上來看,這太復雜了。如果任意一個詞Wi的出現概率只同它前面的N-1個詞有關,問題就可以得到很大的簡化。這時的語言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…實際使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認為任意詞Wi的出現概率只同它緊接的前面的兩個詞有關。重要的是這些概率參數都是可以通過大規模語料庫來估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一個特定詞序列在整個語料庫中出現的累計次數。統計語言模型有點像天氣預報的方法。用來估計概率參數的大規模語料庫好比是一個地區歷年積累起來的氣象紀錄,而用三元模型來做天氣預報,就像是根據前兩天的天氣情況來預測今天的天氣。天氣預報當然不可能百分之百正確。這也算是概率統計方法的一個特點吧。(摘自黃昌寧論文《中文信息處理的主流技術是什么?》)
條件: 該模型基于這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
問題:
雖然我們知道元模型中, n越大約束力越強,但由于計算機容量和速度的限制及數據的稀疏,很難進行大n的統計。
二、馬爾可夫模型以及隱馬爾可夫模型
思想:
馬爾可夫模型實際上是個有限狀態機,兩兩狀態間有轉移概率;隱馬爾可夫模型中狀態不可見,我們只能看到輸出序列,也就是每次狀態轉移會拋出個觀測值;當我們觀察到觀測序列后,要找到最佳的狀態序列。隱馬爾科夫模型是一種用參數表示的用于描述隨機過程統計特性的概率模型,是一個雙重隨機過程,由兩個部分組成:馬爾科夫鏈和一般隨機過程。其中馬爾科夫鏈用來描述狀態的轉移,用轉移概率描述。一般隨機過程用來描述狀態與觀察序列之間的關系,用觀察值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機進行狀態轉移并輸出符號的有限狀態自動機,它通過定義觀察序列和狀態序列的聯合概率對隨機生成過程進行建模。每一個觀察序列可以看成是由一個狀態轉移序列生成,狀態轉移過程是依據初始狀態概率分布隨機選擇一個初始狀態開始,輸出一個觀察值后再根據狀態轉移概率矩陣隨機轉移到下一狀態,直到到達某一預先指定的結束狀態為止,在每一個狀態將根據輸出概率矩陣隨機輸出一個觀察序列的元素。
一個 HMM有 5個組成部分,通常記為一個五元組{S,K, π,A,B},有時簡寫為一個三元組{π ,A,B},其中:①S是模型的狀態集,模型共有 N個狀態,記為 S={s1,s2, ?,sN};②K是模型中狀態輸出符號的集合,符號數為 M,符號集記為K={k1,k2,?,kM};③是初始狀態概率分布,記為 ={ 1, 2,?, N},其中 i是狀態 Si作為初始狀態的概率;④A是狀態轉移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中 aij是從狀態 Si轉移到狀態 Sj的概率;⑤B是符號輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中 bik是狀態 Si輸出 Vk的概率。要用HMM解決實際問題,首先需要解決如下 3個基本問題:①給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何高效率地計算概率P(O|λ),也就是在給定模型的情況下觀察序列O的概率;②給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何快速地選擇在一定意義下“最優”的狀態序列Q=q1q2?qT,使得該狀態序列“最好地解釋”觀察序列;③給定一個觀察序列 O=O1O2?OT,以及可能的模型空間,如何來估計模型參數,也就是說,如何調節模型{π,A,B}的參數,使得 P(O|λ)最大。
問題:
隱馬模型中存在兩個假設:輸出獨立性假設和馬爾可夫性假設。其中,輸出獨立性假設要求序列數據嚴格相互獨立才能保證推導的正確性,而事實上大多數序列數據不能被表示 2 成一系列獨立事件。
三、最大熵模型
最大熵原理原本是熱力學中一個非常重要的原理,后來被廣泛應用于自然語言處理方面。其基本原理很簡單:對所有的已知事實建模,對未知不做任何假設。也就是建模時選擇這樣一個統計概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標注或者其他自然語言處理任務看作一個隨機過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時熵值最大。
求解最大熵模型,可以采用拉格朗日乘數法,其計算公式為:
p?y?x??1??exp???ifi(x,y)?Z?(x)?i?
??Z?(x)??exp???ifi(x,y)?y?i?為歸一化因子 ,?i是對應特征的權重,fi表示其中,一個特征。每個特征對詞性選擇的影響大小由特征權重學習算法自動得到。
?i決定,而這些權值可由GIS或IIS
四、支持向量機
原理:
支持向量機的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況, 通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結構風險最小化理論之上在特征空間中建構最優分割超平面,使得學習器得到全局最優化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。
支持向量機的目標就是要根據結構風險最小化原理,構造一個目標函數將兩類模式盡可能地區分開來, 通常分為兩類情況來討論,:(1)線性可分;(2)線性不可分。
線性可分情況
在線性可分的情況下,就會存在一個超平面使得訓練樣本完全分開,該超平面可描述為: w ·x + b = 0(1)其中,“·”是點積, w 是n 維向量, b 為偏移量。
最優超平面是使得每一類數據與超平面距離最近的向量與超平面之間的距離最大的這樣的平面.3 最優超平面可以通過解下面的二次優化問題來獲得: 滿足約束條件: , i = 1 ,2 ,3 ,......, n.(3)
在特征數目特別大的情況,可以將此二次規劃問題轉化為其對偶問題:
(4)
(5)(6 滿足約束條件:
這里
(7)
是Lagrange 乘子,是最優超平面的法向量,是最優超平面的偏移量,在這類優化問題的求解與分析中, KKT條件將起到很重要的作用,在(7)式中,其解必須滿足:
從式(5)可知,那些
(8)
= 0 的樣本對分類沒有任何作用,只有那些
> 0 的樣本才對分類起作用,這些樣本稱為支持向量,故最終的分類函數為:
根據f(x)的符號來確定X 的歸屬。線性不可分的情況
(9)對于線性不可分的情況,可以把樣本X 映射到一個高維特征空間H,并在此空間中運用原空間的函 數來實現內積運算,這樣將非線性問題轉換成另一空間的線性問題來獲得一個樣本的歸屬.根據泛函的有關理論,只要一種核函數滿足Mercer 條件,它就對應某一空間中的內積,因此只要在最優分類面上采用適當的內積函數就可以實現這種線性不可分的分類問題.此時的目標函數為:
0)
(1 4 其分類函數為:(11)
內積核函數 :
目前有三類用的較多的內積核函數:第一類是
(12)
我們所能得到的是p階多項式分類器,第二類是徑向基函數(RBF),也稱作高斯核函數:
第三類是Sigmoid函數
特點:
概括地說,支持向量機就是首先通過內積函數定義的非線性變換將輸入空間變換到另一個高維空間,在這個空間中求最優分類面。SVM分類函數形式上類似于一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應一個輸入樣本與一個支持向量的內積,因此也叫做支持向量網絡。
SVM方法的特點:
① 非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射;② 對特征空間劃分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心;③ 支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。
SVM 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同于現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。
SVM 的最終決策函數只由少數的支持向量所確定,計算的復雜性取決于支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種 “魯棒”性主要體現在: ①增、刪非支持向量樣本對模型沒有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應用中,SVM 方法對核的選取不敏感
五、條件隨機場
原理:
條件隨機場(CRFs)是一種基于統計的序列標記識別模型,由John Lafferty等人在2001年首次提出。它是一種無向圖模型,對于指定的節點輸入值,它能夠計算指定的節點輸出值上的條件概率,其訓練目標是使得條件概率最大化。線性鏈是CRFs中常見的特定圖結構之一,它由指定的輸出節點順序鏈接而成。一個線性鏈與一個有限狀態機相對應,可用于解決序列數據的標注問題。在多數情況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進行標注的數據序列,y=(y1,y2,…,yn)表示對應的結果序列。例如對于中文詞性標注任務,x可以表示一個中文句子x=(上海,浦東,開發,與,法制,建設,同步),y則表示該句子中每個詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。
對于(X,Y),C由局部特征向量f和對應的權重向量λ確定。對于輸入數據序列x和標注結果序列y,條件隨機場C的全局特征表示為
F?y,x???f?y,x,i?i ⑴
其中i遍歷輸入數據序列的所有位置,f(y,x,i)表示在i位置時各個特征組成的特征向量。于是,CRFs定義的條件概率分布為
p?(Y,X)?其中 exp????F?Y,X???Z??X?
⑵
Z??X???exp????F?y,x???y ⑶
給定一個輸入數據序列X,標注的目標就是找出其對應的最可能的標注結果序列了,即
y?argmaxp??y|x?y ⑷
由于Zλ(X)不依賴于y,因此有
y?argmaxp??y|x??argmax??F?y,x?yy ⑸
CRFs模型的參數估計通常采用L—BFGS算法實現,CRFs解碼過程,也就是求解未知串標注的過程,需要搜索計算該串上的一個最大聯合概率,解碼過程采用Viterbi算法來完成。
CRFs具有很強的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過僅使用一個指數模型作為在給定觀測序列條件下整個標記序列的聯合概率,使得該模型中不同狀態下的不同特征權值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產生的標注偏置的問題。這些特點,使得CRFs從理論上講,非常適合中文詞性標注。‘
總結
首先,CRF,HMM(隱馬模型)都常用來做序列標注的建模,像詞性標注,True casing。但隱馬模型一個最大的缺點就是由于其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇,而另外一種稱為最大熵隱馬模型則解決了這一問題,可以任意的選擇特征,但由于其在每一節點都要進行歸一化,所以只能找到局部的最優值,同時也帶來了標記偏見的問題(label bias),即凡是訓練語料中未出現的情況全都忽略掉,而條件隨機場則很好的解決了這一問題,他并不在每一個節點進行歸一化,而是所有特征進行全局歸一化,因此可以求得全局的最優值。目前,條件隨機場的訓練和解碼的開源工具還只支持鏈式的序列,復雜的尚不支持,而且訓練時間很長,但效果還可以。最大熵隱馬模型的局限性在于其利用訓練的局部模型去做全局預測。其最優預測序列只是通過viterbi算法將局部的最大熵模型結合而成的。條件隨機場,隱馬模型,最大熵隱馬模型這三個模型都可以用來做序列標注模型。但是其各自有自身的特點,HMM模型是對轉移概率和表現概率直接建模,統計共現概率。而最大熵隱馬模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。最大熵隱馬模型容易陷入局部最優,是因為最大熵隱馬模型只在局部做歸一化,而CRF模型中,統計了全局概率,在 做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置的問題。
第四篇:機器學習報告
機器學習總結報告
劉皓冰
大部分人錯誤地以為機器學習是計算機像人一樣去學習。事實上,計算機是死的,怎么可能像人類一樣“學習”呢,機器學習依靠的是數學,更確切地說是靠統計。
如果我們讓計算機工作,是給它一串指令,然后計算機會遵照這個指令一步步執行下去,有因有果,非常明確。但這種方式在機器學習中是行不通的。機器學習是不會接受你輸入的指令的,它接受的是你輸入的數據。也就是說,機器學習是一種讓計算機利用數據而不是指令來進行各種工作的方法。這聽起來非常不可思議,但結果上卻是非常可行的。“統計”思想將在你學習“機器學習”相關理念時無時無刻不伴隨,相關而不是因果的概念將是支撐機器學習能夠工作的核心概念。
依據數據所做的判斷跟機器學習的思想根本上是一致的。機器學習方法是計算機利用已有的數據(輸入),得出了某種模型,并利用此模型預測未來(輸出)的一種方法。從數據中學得模型的過程稱為“學習”(learning)或“訓練”(training),這個過程通過執行某個學習算法來完成。訓練過程中使用的數據成為“訓練數據”(training data),其中每個樣本稱為一個“訓練樣本”(training sample),訓練樣本組成的集合稱為“訓練集“(training set)。學得模型對應了關于數據的某種潛在的規律,因此亦稱”假設“(hypothesis);這種潛在規律自身,則稱為”真相“或”真實“(ground-truth),學習過程就是為了找出或逼近真相。模型有時也被稱為”學習器“(learner),可看作學習算法在給定數據和參數空間上的實例化。
若欲預測的是離散值則此類學習任務被稱為“分類”;若欲預測的是連續值則此類學習任務稱為“回歸”;對只涉及兩個類別的“二分類”任務,通常稱其中一個類為“正類”,另一個類為“反類”;涉及多個類別時,則稱為“多分類”任務。
模型是否準確依賴與數據。如果我的數據越多,我的模型就越能夠考慮到越多的情況,由此對于新情況的預測效果可能就越好。這是機器學習界“數據為王”思想的一個體現。一般來說(不是絕對),數據越多,最后機器學習生成的模型預測的效果越好。
機器學習里面有非常多的經典算法,每種算法都能形成一個模型。下面在簡要介紹一下機器學習中的經典代表方法。重點介紹的是這些方法內涵的思想。
1、回歸算法 在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統計學遷移到機器學習中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學習那些強大的算法。回歸算法有兩個重要的子類:即線性回歸和邏輯回歸。
線性回歸一般使用“最小二乘法”來求解。“最小二乘法”的思想是這樣的,假設我們擬合出的直線代表數據的真實值,而觀測到的數據代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優問題轉化為求函數極值問題。函數極值在數學上我們一般會采用求導數為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量太大。計算機科學界專門有一個學科叫“數值計算”,專門用來提升計算機進行各類計算時的準確性和效率問題。例如,著名的“梯度下降”以及“牛頓法”就是數值計算中的經典算法,也非常適合來處理求解函數極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。
邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數值問題,也就是最后預測出的結果是數字,例如預測一所房子大約可以買多少錢。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預測結果是離散的分類,例如判斷腫瘤是惡性還是良性等等。實現方面的話,邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數,將數值結果轉化為了0到1之間的概率(Sigmoid函數的圖像一般來說并不直觀,你只需要理解對數值越大,函數越逼近1,數值越小,函數越逼近0),接著我們根據這個概率可以做預測,例如概率大于0.5,腫瘤就是惡性的等等。
2、神經網絡
神經網絡(也稱之為人工神經網絡,ANN)算法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現在,攜著“深度學習”之勢,神經網絡重裝歸來,重新成為最強大的機器學習算法之一。
神經網絡的誕生起源于對大腦工作機理的研究。早期生物界學者們使用神經網絡來模擬大腦。機器學習的學者們使用神經網絡進行機器學習的實驗,發現在視覺與語音的識別上效果都相當好。在BP算法(加速神經網絡訓練過程的數值算法)誕生以后,神經網絡的發展進入了一個熱潮。
下圖是一個簡單的神經網絡的邏輯架構。在這個網絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數據的分解與處理,最后的結果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經元,若干個處理單元組成了一個層,若干個層再組成了一個網絡,也就是”神經網絡”。
圖神經網絡的邏輯架構
在神經網絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸到下一個層次。通過這樣的過程,神經網絡可以完成非常復雜的非線性分類。
進入90年代,神經網絡的發展進入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經網絡的訓練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經網絡的地位。
3、SVM(支持向量機)
支持向量機算法是誕生于統計學習界,同時在機器學習界大放光彩的經典算法。
支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數技術,則支持向量機算法最多算是一種更好的線性分類技術。
但是,通過跟高斯“核”的結合,支持向量機可以表達出非常復雜的分類界線,從而達成很好的的分類效果。“核”事實上就是一種特殊的函數,最典型的特征就是可以將低維的空間映射到高維的空間。
上述機器學習算法均為監督學習算法。監督學習,就是人們常說的分類回歸,通過已有的訓練樣本(即已知數據以及其對應的輸出)去訓練得到一個最優模型(這個模型屬于某個函數的集合,最優則表示在某個評價準則下是最佳的),再利用這個模型將所有的輸入映射為相應的輸出。在人對事物的認識中,我們從孩子開始就被大人們教授這是貓啊、那是狗啊、那是桌子啊,等等。我們所見到的景物就是輸入數據,而大人們對這些景物的判斷結果(是房子還是鳥啊)就是相應的輸出。當我們見識多了以后,腦子里就慢慢地得到了一些泛化的模型,這就是訓練得到的那個(或者那些)函數,從而不需要大人在旁邊指點的時候,我們也能分辨的出來哪些是貓,哪些是狗。無監督學習則是另一種研究的比較多的學習方法,它與監督學習的不同之處,在于我們事先沒有任何訓練樣本,而需要直接對數據進行建模。這聽起來似乎有點不可思議,但是在我們自身認識世界的過程中很多處都用到了無監督學習。比如我們去參觀一個畫展,我們完全對藝術一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點,哪些更寫實一些,即使我們不知道什么叫做朦朧派,什么叫做寫實派,但是至少我們能把他們分為兩個類)。無監督學習里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起,而我們并不關心這一類是什么。因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了。
那么,什么時候應該采用監督學習,什么時候應該采用非監督學習呢?一種非常簡單的回答就是從定義入手,如果我們在分類的過程中有訓練樣本,則可以考慮用監督學習的方法;如果沒有訓練樣本,則不可能用監督學習的方法。但是事實上,我們在針對一個現實問題進行解答的過程中,即使我們沒有現成的訓練樣本,我們也能夠憑借自己的雙眼,從待分類的數據中人工標注一些樣本,并把他們作為訓練樣本,這樣的話就可以把條件改善,用監督學習的方法來做。然而對于不同的場景,正負樣本的分布如果會存在偏移(可能是大的偏移,也可能偏移比較小),這樣的話用監督學習的效果可能就不如用非監督學習了。
今天,在計算機科學的諸多分支學科領域中,都能找到機器學習技術的身影,尤其是在計算機視覺、語音識別、模式識別、自然語言處理等“計算機應用技術”領域,機器學習已成為最重要的技術進步源泉之一。此外,機器學習還為許多交叉學科提供了重要的技術支撐比如說“生物信息學”。
可以說“計算機視覺=圖像處理+機器學習“。圖像處理技術用于將圖像處理為適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用非常的多,例如百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景非常火熱的,同時也是研究的熱門方向。隨著機器學習的新領域深度學習的發展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發展前景不可估量。
如果說“計算機視覺=圖像處理+機器學習“,那么”語音識別=語音處理+機器學習“。語音識別就是音頻處理技術與機器學習的結合。語音識別技術一般不會單獨使用,一般會結合自然語言處理的相關技術。目前的相關應用有蘋果語音助手siri、微軟小娜等。
“自然語言處理=文本處理+機器學習“。自然語言處理技術主要是讓機器理解人類的語言的一門領域。在自然語言處理技術中,大量使用了編譯原理相關的技術,例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學習等技術。作為唯一由人類自身創造的符號,自然語言處理一直是機器學習界不斷研究的方向。按照百度機器學習專家余凱的說法“聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的”。如何利用機器學習技術進行自然語言的的深度理解,一直是工業和學術界關注的焦點。
談到對數據進行分析利用,很多人會想到“數據挖掘”(data mining)。數據挖掘領域在二十世紀九十年代形成,它受到很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大。數據挖掘是從海量數據中發掘知識,這就必然涉及對“海量數據”的管理和分析。大體來說,“數據挖掘=機器學習+數據庫“——數據庫領域的研究為數據挖掘提供數據管理技術,而機器學習和統計學的研究為數據挖掘提供數據分析技術。由于統計學往往醉心于理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之后才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域,但機器學習研究往往并不把海量數據作為處理對象,因此,數據挖掘要對算法進行改造,使得算法性能和空間占用達到實用的地步。同時,數據挖掘還有自身獨特的內容,即關聯分析。
通過上面的介紹,可以看出機器學習是多么的重要,應用是多么的廣泛。現隨著大數據(big data)概念的興起,機器學習大量的應用都與大數據高度耦合,幾乎可以認為大數據是機器學習應用的最佳場景。例如經典的Google利用大數據預測了H1N1在美國某小鎮的爆發、百度預測2014年世界杯結果從淘汰賽到決賽全部正確。這實在太神奇了,那么究竟是什么原因導致大數據具有這些魔力的呢?簡單來說,就是機器學習技術。正是基于機器學習技術的應用,數據才能發揮其魔力。
大數據的核心是利用數據的價值,機器學習是利用數據價值的關鍵技術,對于大數據而言,機器學習是不可或缺的。相反,對于機器學習而言,越多的數據會越可能提升模型的精確性,同時,復雜的機器學習算法的計算時間也迫切需要分布式計算與內存計算這樣的關鍵技術。因此,機器學習的興盛也離不開大數據的幫助。大數據與機器學習兩者是互相促進,相依相存的關系。
機器學習與大數據緊密聯系。但是,必須清醒的認識到,大數據并不等同于機器學習,同理,機器學習也不等同于大數據。大數據中包含有分布式計算、內存數據庫、多維分析等等多種技術。單從分析方法來看,大數據也包含以下四種分析方法:
1.大數據,小分析:即數據倉庫領域的OLAP分析思路,也就是多維分析思想。2.大數據,大分析:這個代表的就是數據挖掘與機器學習分析法。3.流式分析:這個主要指的是事件驅動架構。4.查詢分析:經典代表是NoSQL數據庫。
也就是說,機器學習僅僅是大數據分析中的一種而已。盡管機器學習的一些結果具有很大的魔力,在某種場合下是大數據價值最好的說明。但這并不代表機器學習是大數據下的唯一的分析方法。
第五篇:行業納稅評估模型模版
行業(產品)納稅評估模型模版
一、行業(產品)介紹
(一)行業(產品)定義
介紹該行業定義、概況、屬性以及編號。
(二)企業類型劃分
對該行業(產品)企業具體劃分類型,并加以說明。
(三)工藝簡介
簡要介紹該行業(產品)的主要工藝流程及特點。
二、行業(產品)生產經營規律及涉稅管理難點
(一)行業生產經營規律
描述該行業(產品)的主要經營規律。
(二)涉稅管理難點
詳細列舉評估可能存在的難點。
三、評估方法
結合該行業企業的生產工藝流程、生產經營規律、涉稅管理難點,詳細列舉主要評估方法。每種評估方法不是孤立存在,在稅收管理過程中,應運用二種以上方法進行評估測算,相互比對和印證。
具體的評估方法包括以下部分:
1.原理描述
2.評估模型
3.標準值參考范圍
4.數據獲取途徑
5.疑點判斷
6.應用要點
四、印證案例
選取若干典型案例對評估模型進行驗證。驗證案例應包括以下內容:
1.企業基本情況介紹
2.數據采集來源及內容
3.確定疑點列舉
4.實地核查情況
5.測算稅收差異情況
6.評估約談
7.評定處理