第一篇:SAS教學大綱(xiexiebang推薦)
《信息分析軟件SAS》教學大綱
課程名稱: 信息分析軟件SAS
編寫日期: 2003年7月
一、開設系(部):經濟信息管理系
二、教學對象:
本科
三、教學目的: SAS系統是能夠為不同硬件平臺上的不同業務用
戶提供強大、一致、完善的編程、數據管理和分析的工具。SAS軟件最初應用于統計和技術領域,但SAS系統現在已發展成為一個企業級工具,提供了從數據存取、數據訪問、數據分析到數據展現等的全過程服務,解決方案涉及數據倉庫、決策分析、數據挖掘和Web發布等多個方面。這些方案和技術在各個部門都發揮著非常重要的作用。推廣SAS對我國當前企業信息化有著一定的促進作用。通過本課程的學習力求使學生對SAS產生濃烈的興趣、學習的愿望、和使用的設想。能夠對SAS系統快速入門,并在對SAS有一定了解的基礎上逐步認識SAS軟件促進企業信息化方面的強大功能和魅力。
四、教學要求:
(一)突出SAS在企業信息化方面的應用,拓展
范圍,不僅僅局限于SAS的操作和統計分析。
(二)應用大量實例分析讓學生了解SAS在當前各個行業各個領域的最新應用。
(三)多媒體課件教學,增強學生的學習興趣和接受能力。
(四)創造機會讓學生上機實踐。
五、教學課時及其分配:總學時:54學時;討論:3學時;上機:
隨機安排
六、考核:考核形式——期末考試、平時考核;
試卷結構——試題類型:1.填空題 2.是非判斷題
3.單項選擇題
4.多項選擇題
5.問答題
題量——2小時;
分值分配——1.填空題 10分; 2.是非判斷題10分 ;
3.單項選擇題 20分 ;4.多項選擇題 20分 ;5.問答題 40分;
七、教材:《SAS for Windows 統計分析系統教程》;著者:洪楠 侯軍;出版社:電子工業出版社;版本:2001年3月第1版;出版日期:2001年3月
八、主要參考書目:
(一)《實用統計方法與SAS系統》高惠璇 編著;北京大學出版社;2001年10月第1版;2001年10月出版。
(二)《SAS 系統
BAS SAS 軟件使用手冊》 高惠璇等譯;中國統計出版社;1997年4月第一版
1997年4月出版。
(三)《SAS 系統 SAS/STAT 軟件使用手冊》高惠璇等譯;中國統計出版社;1997年4月第一版;1997年4月出版。
(四)《SAS 系統 SAS/ETS 軟件使用手冊》高惠璇等譯;中國統計出版社;1997年4月第一版;1997年4月出版。
九、講授提綱:
第一部分
SAS系統與基礎統計分析
一、簡介
(一)什么是SAS系統
(二)SAS系統的組成
二、SAS 系統初步:
(一)SAS系統的運行環境及界面
(二)SAS數據庫與數據集
三、SAS的數據接口
(一)外部數據的輸入(指非SAS數據文件)
(二)編輯、瀏覽SAS數據集
(三)輸出為外部數據的格式
四、SAS編程基礎
(一)使用SAS語言
(二)SAS表達式
五、SAS數據集的創建與整理
(一)利用SAS創建數據集
(二)數據的整理
第二部分
SAS軟件在企業信息化中的主要應用
一、SAS 整體財務管理方案
(一)簡介
1.高層財務主管面臨新的挑戰 2.SAS整體財務管理解決方案
(1)預算和計劃
(2)財務合并和整合、分析和報表(3)成本分析和管理
(4)運營管理:與行為管理的聯接
(二)功能概述
1.業務模型 2.預算與計劃
3.成本分攤(Cost Allocation)4.e-報表和分析 5.支持的平臺 6.自動操作和整合
(三)成功案例介紹
二、SAS分析型客戶關系管理
(一)簡介
(二)一個正在急劇變化的世界
(三)什么是客戶關系管理?
(四)分析型CRM的核心技術
1.數據倉庫 2.數據挖掘
3.聯機分析處理(OLAP)4.先進的決策支持和報表工具
(五)SASe-CRM簡介
1.介紹
2.創造知識驅動業務,從互聯網戰略中獲益 3.制定電子商務戰略不再需要猜測 4.正確描述網站訪問者特征 5.保持在Web商務上的遙遙領先 6.優化站點設計(六)成功案例介紹
三、SAS 風險分析環境
(一)概述
(二)前言
(三)風險(Risk)
(四)衍生(Derivative)
(五)SAS風險分析環境
(六)通過SAS風險分析環境解決風險管理問題
(七)項目工作流
(八)結論
(九)成功案例介紹
四、SAS數據倉庫--從您的業務數據中提煉出決策支持信息的解決方案
(一)SAS研究所和SAS系統
(二)利用SAS技術建立你的數據倉庫
(三)SAS數據倉庫的組成(四)SAS數據倉庫的體系結構
(五)SAS數據倉庫的開發
(六)SAS的數據倉庫產品-SAS/WA
(七)決策支持智能化
(八)成功案例介紹
五、SAS 數據倉庫方法論
(一)快速建庫方法論瀏覽 1.什么是數據倉庫
2.建立數據倉庫的業務理由
3.建立數據倉庫的技術理由
4.數據倉庫的技術特征
5.確認業務需要和數據倉庫的目標
6.關鍵成功因素
(二)SAS快速建立數據倉庫方法論的細節
1.業務驅動
2.收集需求的研討會
3.快速應用開發(RAD)
(三)(四)方法論的框架
成功案例介紹
六、SAS數據挖掘
(一)SAS幫助你進行數據挖掘
(二)SAS的數據挖掘的方法論-SEMMA
(三)SAS數據挖掘的集成軟件工具--SAS/EM
(四)成功案例介紹
七、企業級的報表制作工具--SAS/ER + SAS/MDDB + SAS/IntrNet
(一)SAS企業級的報表制作軟件: SAS/ER
(二)豐富的報表制作能力
(三)報表所用數據的收集和準備
(四)企業級報表制作系統的管理
(五)SAS的多維數據庫結構使你的報表和決策支持系
統高效率運作
(六)在網上實現一切
(七)成功案例介紹
八、信用風險管理—信用記分卡
(一)簡介
(二)信用記分卡
(三)信用風險管理
1.評估申請人的信譽
2.維持評估方法的準確性
3.確定新的信貸產品,開拓新市場
(四)怎樣建立記分卡
1.信用記分卡的類型 2.記分卡的基本要素 3.建立記分卡的技術
4.建立記分卡的步驟
(五)記分卡的監控
(六)成功案例介紹
九、Cross-selling
(一)(二)導言 概述
1.客戶:你最寶貴的資產 2.對于IT行業的挑戰 3.SAS的客戶關系管理解決方案:Cross-selling
(三)市場的變化創造了機會,也帶來了挑戰
1.企業合并 2.數據倉庫 3.更好的客戶分類 4.新的渠道
5.個人社會特性的改變
(四)基于Cross-selling數據的分析方法
1.相關與聚類 2.預測模型 3.創建采樣數據 4.數據挖掘流程
(五)成功案例介紹
十、綜合計分卡
(一)前言
(二)綜合計分卡模型
1.概述
2.與傳統方法的區別 3.四個主要方面 4.因果關系
(三)SAS解決方案
1.全面的解決方案 2.從原始數據到關鍵信息 3.綜合計分卡管理系統
(四)成功案例介紹
第二篇:SAS復習資料
SAS復習資料 2013.6.20
說明:根據老師給的Html版整理,如有錯誤、遺漏敬請原諒,并及時指出,進行改正。謝謝!
1.研究因子:對試驗指標有影響的,在試驗中需要加以考察的條件。2.小機率原理:概率很小的事件,在一次試驗中是不至于發生的。3.重復:每個參試的品種或處理占有兩個或兩個以上的小區稱有重復。
4.局部控制:通過對小區的合理安排,把試驗誤差控制在一個局部的范圍內。5.試驗指標:試驗中用來衡量試驗效果的量。
6.復因子試驗:包含兩個或兩個以上的因子的試驗。7.集團(總體):根據研究目的確定的,凡符合指定條件的全部觀察對象。8.偶然誤差(機誤):由于機會不等所造成的偏差。9.可量資料:能夠以測量、稱量的方法表示的資料。10.正交互作用(正連應):某些因子綜合起來的效果大于這些因子單獨作用的效果之和。1.進行隨機區組的統計分析,需用何種方差分析?:雙方面分類的方差分析 2.進行拉丁方的統計分析,需用何種方差分析?:三方面分類的方差分析 3.進行雙方面分類的方差分析,總平方和分解為多少部份?:三部分 4.進行三方面分類的方差分析,總平方和分解為多少部份?:四部分
5.兩因素(含交互作用)的方差分析,處理組合平方和應分解為多少部份?:四部分 6.三因素(含一級交互作用)的方差分析,處理組合平方和應分解為多少部份?:七部分 7.在幾種常用的試驗設計方法中,哪種精確度較高?:拉丁方 8.隨機區組設計的誤差自由度等于多少?:(m1)9.拉丁方設計的誤差自由度等于多少?:(n2)10.只有重復而末實行局部控制的試驗,應采用何種方差分析?:單方面分類的方差分析 1.樣本標準差的功用?:反映樣本的變異程度
2.樣本平均數標準差(標準誤)的功用?:反映在同一個總體進行抽樣,所得的樣本平均數間的差異,即抽樣誤差。
3.變異系數的功用?:用作兩類事物的變異程度作比較
4.樣本平均數的功用?:指示資料的中心位置,反映資料的一般質量水平,作為代表值同其它資料比較
5.協方差分析的功用?:用處理前的數據(基數)矯正處理后的數據,提高分析的精確度。6.樣本均數差異顯著性測驗的功用?:在一定的概率保證下,判斷事物間有否本質差異 7.總體均數區間估計的功用?:通過抽樣,由樣本的情況估計未知總體平均數的數值范圍 8.在試驗設計中,局部控制的作用?:減少試驗誤差
9.在試驗設計中,重復的作用?:減少試驗誤差,估計試驗誤差,擴大試驗的代表性 10.在試驗設計中,隨機排列的功用?:正確估計試驗誤差 1.何謂試驗指標?:在試驗中用來衡量試驗效果的一個量
2.什么叫保護行?:防止試驗材料受外來因素和周邊環境影響作物行
3.某個復因子試驗的處理組合數應如何計算?:等于有關因子的水平數乘積 4.在常用的試驗設計中,哪種設計方法的精確度最高?:拉丁方 5.在常用的試驗設計中,哪種設計方法的精確度最低?:間比法 6.試驗設計三大原則是什么?:重復,局部控制,隨機排列
7.作改良對比法設計時,參試的品種或處理數一般不大于多少?:不受限制 8.作隨機區組設計時,參試的品種或處理數一般不大于多少?:不大于18 9.作配對法設計時,參試的品種或處理數一般不大于多少?:兩個
10.作拉丁方設計時,參試的品種或處理數一般不大于多少?:不大于8 1.某個因子的自由度等于多少?:等于該因子的水平數減1 2.某兩因子試驗中,其交互作用的自由度等于多少?:等于有關因子的自由度的乘積
3.一可量資料樣本均數與總體均數差異顯箸性進行t檢驗時,其自由度為多少?:等于樣本含量數-1 4.正交表的總自由度等于多少?:等于參試的處理組合數-1 5.作回歸關系顯著性測驗時,回歸項的自由度等于多少?:等于自變量的個數 6.作簡單相關系數顯著性測驗時,DF等于多少?:等于N-2 7.2*2聯卡平方測驗時,DF等于多少?:1 8.兩個配對法設計的可量資料樣本均數差異顯箸性進行t檢驗,其自由度為多少?:試驗資料的配對數-1 9.2*J聯卡平方測驗時,其自由度為多少?:J-1 10.作拉丁方設計時,參試的品種或處理數一般不大于多少?:2 1.SS:平方和 2.N(0,1):標準正態分布 3.μ:總體平均數
4.CLM:平均數的置信區間 5.∑X :總和
6.VIF:方差膨脹因子 7.MSE:誤差均方 8.DF :自由度 9.CV:變異系數 10.V:方差
1.欲進行聚類統計分析,需調用SAS系統的何種過程?:Proc cluster 2.欲進行回歸統計分析,需調用SAS系統的何種過程?:Proc reg 3.欲進行方差統計分析,需調用SAS系統的何種過程?:Proc anova 4.欲進行因子統計分析,需調用SAS系統的何種過程?:Proc factor 5.欲進行典型相關統計分析,需調用SAS系統的何種過程?:Proc cancorr 6.欲進行基本統計量統計分析,需調用SAS系統的何種過程?:Proc means 7.欲進行主成分分析,需調用SAS系統的何種過程?:Proc princomp 8.欲進行成組法T測驗,需調用SAS系統的何種過程?:Proc ttest 9.欲進行正態分布檢驗,需調用SAS系統的何種過程?:Procunivariate 10.欲進行作相關點式圖,需調用SAS系統的何種過程?:Proc plot 1.單因子隨機區組的方差分析模型(MODEL)是:Y=BLOCK T 2.單因子隨機區組協方差分析的模型是(MODEL):Y=BLOCK T X 3.三元線性回歸分析的模型是(MODEL):Y=X1 X2 X3 4.單方面分類的方差分析模型(MODEL)是:Y=T
5.兩個因子變量的反應面分析的模型(MODEL)是:Y=X1 X2
6.單因子隨機區組的多元方差分析的模型(MODEL)是:X1 X2 X3 =BLOCK T 7.3*4 復因子試驗的方差分析模型(MODEL)是:Y=BLOCK A B A*B 8.拉丁方設計的方差分析模型(MODEL)是:Y=A B T 9.3*2*3復因子試驗的方差分析模型(MODEL)是:Y=BLOCK A B C A*B A*C B*C A*B*C 10.正交隨機區組(不考查交互作用)的統計分析模型(MODEL)是:Y=BLOCK A B C D 1.協方差分析的功用?:用處理前的數據(基數)矯正處理后的數據,提高分析的精確度 2.主成分分析的功用?:將個數眾多、相互有關聯的變量,轉化為少數幾個相互獨立的變量 3.聚類分析的功用?:把樣本或變量進行分類分
4.典型相關系數的功用?:反映兩組不同性質的變量之間的關系密切程度 5.樣本平均數的功用?:反映資料的一般質量水平,指示資料的中心位置 6.樣本平均數標準差(標準誤)的功用?:估計抽樣誤差
7.在回歸分析中,殘差的作用:反映實測值與預測值之間的偏差程度 8.在試驗設計中,局部控制的作用?:減少試驗誤差 9.在試驗設計中,重復的作用?:估計試驗誤差
10.變異系數的功用:用于兩組資料的變異程度作比較
1.多重比較的方法有很多種,課本介紹了其中的三種: 第一種、最小顯著差數法(Least Significant difference---LSD法或t測驗法)第二種、Q測驗法(最高顯著差數法═Tukey測驗法)
第三種、新復極差法(Shortest Significant Range---SSR法或Duncan法)哪種測驗法的精確度較高?TUKEY法
2.不服從正態分布的數據不能直接作方差分析,必須進行數據轉換,數據轉換常用的方法有:(1)、平方根代換(2)、對數代換(3)、反正弦代換
問如果數據為二項分布的百分率,即可數百分數,且大于70%或小于30%,應采用何種代換?反正弦代換
3.計算步驟為:
第一步、將數據進行標準化; 第二步,求相關矩陣;
第三步,求相關矩陣的特征根、特征向量、各特征根的方差貢獻率和累計方差貢獻。第四步,根據特征根的累計方差貢獻率保留前幾個公共因子。
第五步,用前幾個特征根的平方根乘相應的特征向量,構成因子載荷陣; 第六步,求相關系數矩陣的逆陣;
第七步,用因子載荷陣與相關矩陣的逆陣相乘,得回歸系數陣; 第八步,用回歸系數與標準化數據相乘得因子得分值。問這是何種統計分析方法?因子分析
4.計算步驟為:
第一步,將數據進行中心化; 第二步,求方差協方差矩陣; 第三步,求方差協方差矩陣的特征根、特征向量、各特征根的方差貢獻率和累計方差貢獻率。第四步,根據特征根的累計方差貢獻率保留前幾個主成分。
第五步,用中心化數據與前三個特征向量相乘,求得前三個主成分得分。
第六步,如果覺得有必要,用前三個特征根的平方根(即前幾個主成分的標準差,)除前幾個主成分得分值,得標準化主成分得分。第七步,如果有必要的話,利用這些標準化主成分得分作進一步的分析。問這是何種統計分析方法?主成分分析
5.計算步驟為:
第一步,計算X、Y、X*Y項的各種平方和(X為基數,Y為處理后的實測值;
第二步,進行X與Y項的回歸關系顯著性測驗,若相關不顯著,則進行一般的方差分析; 第三步,若相關顯著,則扣除回歸關系后,再進行方差分析; 第四步,用回歸系數矯正處理后的數據測驗,再進行多重比較。問這是何種統計分析方法?協方差分析
6.計算步驟為:
第一步,計算出k個類別的方差協方差矩陣的逆陣。
第二步,計算出各個訓練樣本到這k個類別的馬氏距離,比較這k個距離,把訓練樣本歸到距離最短的類中。
第三步,計算在第二步中判別錯誤的樣本數占總樣本數的百分率。第四步,如果還有新的待判樣本,計算各個新樣本到這k個類別的馬氏距離,比較k個距離,把各個新樣本歸到距離最短的類中,再計算在待判樣本中判別錯誤的樣本數占待判樣本總數的百分率。
問這是何種統計分析方法?判別分析
7.計算步驟為:
第一步,計算出Y的矯正數及各種平方和(Y為處理后的實測值)。第二步,列方差分析表并進行F測驗。第三步,若F測驗顯著則進行多重比較。第四步,寫出統計結論。
問這是何種統計分析方法?一元方差分析
8.計算步驟為:
第一步,按一定的原則選擇k個凝聚點;
第二步,將所有事例點歸到最靠近它的凝聚點所代表的類中,得到k個初始分類;
第三步,按最近距離的原則對初始分類進行修改;反復進行,直至分類合理為止。問這是何種統計分析方法?動態聚類
9.計算步驟為:
第一步,將原始數據進行中心化,按研究目的分為兩組,記變量數(m1)較少的那組為X1,記變量數(m2)較多的那組為X2。
第二步,求X1和X2的方差協方差矩陣S11、S12和S22以及S12的轉置陣S21,并利用它們構成非對稱的方陣。
第三步,求非對稱的方陣的特征根和對應的特征向量。
第四步,將這些特征向量除以非對稱的方陣的特征根的平方根轉換為第一組的典型系數。第五步,利用兩個典型系數的關系式求出另一組的典型系數。第六步,將中心化數據和典型系數相乘得典型相關系數。問這是何種統計分析方法?典型相關分析 10.用SAS系統作數據分析,首要的問題是如何排列數據,你熟悉SAS系統對各種統計分析方法的數據排列的要求嗎?問單因子試驗采用隨機區組設計,有四個試驗指標時,數據應排多少列?。6列
:平方和
乘積和
合并樣本百分數
樣本標準差
樣本平均數標準差
兩樣本百分數之差的總體標準差
兩樣本平均數之差的樣本標準差
總體標準差
樣本變異系數
樣本差數平均數標準差
可量資料大樣本均數與總體均數差異顯箸性測驗
可量資料兩大樣本均數差異顯箸性測驗 可數資料樣本百分數與總體百分數差異顯箸性測驗
可數資料兩大樣本百分數差異顯箸性測驗
可量資料小樣本均數與總體均數差異顯箸性測驗
可量資料兩小樣本均數差異顯箸性測驗(配對法)
可量資料兩小樣本均數差異顯箸性測驗(成組法)
由可量資料大樣本對總體均數進行估計
由可量資料小樣本對總體均數進行估計
由可數資料大樣本百分數對總體百分數進行估計
第三篇:SAS項目實驗報告策劃書
SAS項目實驗報告——
活
動
策
劃
金融一班:第五組 二零一二年十月三十日
目錄
一. 采訪對象:四川三陽汽車有限公司(市場部蔣俊紅經理)..........3二. 采訪背景:...........................3
三. 采訪時間:...........................3
四、采訪地點:綿陽市科創園區創業大道中段242號............3五、采訪方式:此次活動采取座談形式,面對面采訪,并分時間段進行采訪。..........3六、采訪目的:采訪該公司影響汽車銷售的因素,以及各種因素間的關系。.......3七、采訪前期準備:..........................31、提前預約:用電話的形式與被采訪者保持聯系,最好提前一周預約好。..........32、采訪工具準備:必須證件,器材。如照相機,錄音筆,采訪本,攝像機等。.........33、采訪交通工具:步行(后門左轉直走,過馬路即到達目的地)............34、采訪人員安排:......................3八、采訪內容:...........................31、公司背景?............................32、公司客戶特征?....................33、公司汽車銷售狀況?..........................34、影響汽車銷售因素?..........................3九、采訪后期..........................3十、可行性分析及備注........................4活動策劃
一.采訪對象:四川三陽汽車有限公司(市場部蔣俊紅經理)
二.采訪背景:
四川三陽汽車有限公司成立于1998年2月23日,是東風——雪鐵龍授權集整車銷售、備件供應、售后服務、信息反饋四位一體特約服務網點,能夠為廣大東風雪鐵龍轎車客戶提供完備的售前、售中及售后服務。公司成立之初便本著一切為客戶著想的服務理念,力爭為客戶提供購車之外更多更周到的超值服務。公司成立了車友俱樂部對客戶的愛車提供保姆式服務,亦是四川綿陽最大的東風雪鐵龍汽車文化傳播中心。公司現有員工80余人,其中研究生以上學歷8人,大學以上40人,高級技師3人,中級以上技師22人,專業銷售人員12人。
三.采訪時間:
2012年10月26日
2012年11月2日
四、采訪地點:綿陽市科創園區創業大道中段242號
五、采訪方式:此次活動采取座談形式,面對面采訪,并分時間段進行采訪。
六、采訪目的:采訪該公司影響汽車銷售的因素,以及各種因素間的關系。
七、采訪前期準備:
1、提前預約:用電話的形式與被采訪者保持聯系,最好提前一周預約好。
2、采訪工具準備:必須證件,器材。如照相機,錄音筆,采訪本,攝像機等。
3、采訪交通工具:步行(后門左轉直走,過馬路即到達目的地)
4、采訪人員安排:
八、采訪內容:
1、公司背景?
2、公司客戶特征?
3、公司汽車銷售狀況?
4、影響汽車銷售因素?
九、采訪后期
整理收集到的資料,整理訪談問答記錄,完成書面表達報告,并傳給被采訪者進行確認,保證修改無誤,成文。
十、可行性分析及備注
可行性分析:
1、由于現在大三本科生比較清閑,時間比較充足。
2、在該公司都熟人,故可行性較高,只要問題提法得當,善于取舍,此次采訪易于實行。
3、已在該公司做過一次試探性采訪。
4、采訪地近,基本為零成本采訪。
備注:
1、采訪時,以預備問題作為基本問題,也可即興追問。
2、采訪流程中小組成員以安全為重。
第四篇:常用sas語句總結
Engine(引擎)是一種訪問架構,SAS系統通過它迅速地對其它數據庫管理系統中文件進行讀入和寫出。
1.LIBNAME語句
1.1解讀
定義 SAS 邏輯庫。具體地說,它可以
(1)向 SAS 標識 SAS 邏輯庫
(2)將引擎與邏輯庫關聯
(3)讓您指定邏輯庫的選項
(4)為邏輯庫指定邏輯庫引用名
通俗得講,LIBNAME語句把一個libref(庫標記名)和一個目錄聯系起來,使用戶可以在SAS語句中使用庫標記來指示這個目錄。提交該程序時自動引用該 SAS 邏輯庫 1.2 語句格式
1、LIBNAME libref
2、LIBNAME libref Clear;
3、LIBNAME libref |_ All_ List;三種格式反映了LIBNAME語句的三種用法 選項說明
LibrefEngineSas-Data-LibraryAccess=Readonly|TempClear_All_List
規定邏輯庫規定引擎規定主機系統下一個有效的物理地址規定邏輯庫為只讀或可修改屬性清除與庫標記的聯系列出所有邏輯庫的屬性在Log窗口列出邏輯庫的屬性。2.length語句
SAS變量的基本類型有兩種:數值型和字符型。數值型變量在數據集中的存貯一般使用8個字節。SAS的字符型變量缺省的長度是8個英文字符,可以使用LENGTH語句指定變量長度,LENGTH語句一般應出現在定義變量的Input語句之前,格式為: LENGTH 字符型變量名 $長度 例如:length name $20 ;
3.input 語句
3.1解讀
INPUT語句 用于向系統表明如何讀入每一條記錄。它的主要功能有:讀入由語句指定的數據列;為相應的數據域定義變量名;確定變量的讀入模式(共有四種模式:column模式,formatted模式,list模式及named模式)。
input語句執行后,SAS將讀取的數據暫時先保存在內存緩沖區,然后執行后面的語句,后面的語句可以對暫存在內存緩沖區中的變量值進行修改,到最后才將整條數據寫入數據集,寫入數據集的數據就不能在當前data步中再修改。
注意:INFILE語句用于確定一個包含原始數據的外部文件,必須在執行INPUT語句前執行,如果要在程序中直接嵌入數據,就用CARDS語句代替INFILE語句。
3.2 語句格式(Column模式)
INPUT variable <$> start-column<-end-column><.decimals><@|@@>;
說明: variable 變量名
$ 跟在變量后面,表明這個變量是字符型變量 start-column 起始列號
end-column 結束列號,如果變量值只包含一列,則可省略
.decimals 如果輸入值中沒有包含一個隔開整數部分與小數部分的小數點,decimals用來顯性的指明小數部分 @ 單尾符 @@ 雙尾符
舉例說明:input name $ 1-10 pulse 11-13 waist 14-15 gender $ 16;
4.SET 語句
Set語句可以用來讀取單個數據集中的數據,也可以用來讀取多個數據集中的數據拼接SAS新的數據集。程序為:
DATA 新數據集;
SET 輸入數據集1 輸入數據集2 ….; Run;如果不適用DROP=和KEEP=選項,在新的數據集中將包含所有舊數據集的變量。
5.DO 循環語句
語句一:
DO WHILE(expression);...more SAS statements...END;語句二:
DO UNTIL(expression);...more SAS statements...END;語句三:
DO index-variable=start
DO item-1<,…item-n>
DO over array-name;...more SAS statements...END;例如: data test;
input sc01-sc05;
array s sc01-sc05;
do over s;
s= s*100;
end;
cards;0.95 0.88 0.57 0.90 0.65;這個語句也是SAS比較特殊的循環結構,專用于數組,將數組的每一個元素訪問一遍。
6.IMPROT 語句
import過程可以讀取的數據有Access數據庫、Excel文件和帶分隔符的文件。
6.1語法格式
PROC IMPORT
DATAFILE=“filename” | TABLE=“tablename” OUT=
DATAFILE=“filename” 用來指定數據文件的位置,如果是Access則用TABLE=“tablename”指定需要讀取的數據表;
OUT= 指定輸出數據集的名稱;
DBMS=identifier 指定導入數據表的類型;幾個常用的DBMS選項如下
ACCESS 讀取MS ACCESS2000/2002數據
EXCEL 讀取Excel2000/2002數據
CSV 讀取逗號分隔的文件
DLM 讀取分隔符文件,需要用DELIMITER=指明具體的分隔符
TAB 讀取Tab分隔的文件
REPLACE選項替換原來已經存在的數據集,缺省情況下是不替換,并在LOG窗口中予以提示;
6.2 proc import讀取帶分隔符的文件 語法格式: PROC IMPORT DATAFILE= OUT= DBMS= REPLACE;(Data source statements:)DATAROW=n;DELIMITER=;GETNAMES=YES|NO;說明:
DBMS= 需要指定DLM,逗號分隔文件可省略; DATAROW=n;指定從數據文件的第幾行開始讀取,該選項缺省情況下,如果getnames=yes則從第二行開始讀取,getnames=no從第一行開始讀取; DELIMITER=;指定分隔符;
GETNAMES=;告訴SAS是否將數據文件的第一行作為變量讀取,該選項缺省為yes。
如果第一行是變量名,而該選項為no則會將列為數值型的第一行讀取為缺失值。
當指定getnames=no時,對于DLM文件,則SAS自動將變量命名為VAR1, VAR2,...;對于Excel文件,則SAS自動命名變量為F1, F2, … 舉例:
proc import datafile=“C:My Documentsmyfilesdelimiter.txt”
out=mydata
dbms=dlm
replace;
delimiter='&';
getnames=yes;run;6.3 proc import讀取Excel文件 語法格式: PROC IMPORT DATAFILE= OUT= DBMS= REPLACE;(Data source statements:)SHEET=;GETNAMES= YES|NO;注:讀取Excel時,可以不指定DBMS=選項。舉例:
proc import datafile=“c:clinic filesdrug1.xls”
out=drug1;
sheet='lab';
getnames=yes;run;6.4 proc import讀取數據庫表(如Access)語法格式: PROC IMPORT TABLE= OUT= DBMS= REPLACE;(Data source Statements:)DATABASE= PWD= UID= WGDB= 說明:
DATABASE= 指明數據庫存放的路徑及名字 UID= 數據庫用戶名 PWD= 密碼 WGDB= 工作組名稱 舉例:
proc import table=“customers”
out=sasuser.cust
dbms=access97;
uid=“userid”;
pwd=“mypassword”;
database=“c:myfileseast.mdb”;
wgdb=“c:winntsystem32security.mdb”;run;通常情況下,proc import是可以不掌握的,通過視窗操作可能更方便,特不過用proc import能夠更精細的控制。在寫import過程的時候,要特別注意分號的位置,從最開始的語法格式那里可以看出,proc import后面的一般選項是連在一起寫的,中間用空格隔開,最后才以分號結尾;而數據源選項則每一項都要以分號結束。這些地方往往容易出錯。
7.CARDS語句
用于直接輸入數據,標志著數據塊的開始。格式如下:
CARDS;
數據塊
;
8.SORT和BY語句
SORT語句將指定的數據集按指定變量排序。使用BY語句可以使生成的數據集按照某個變量排序,但輸入數據集必須預先按該變量排序。使用PROC SORT語句可以進行排序,一般形式為:
PROC SORT DATA=數據集 OUT=排序后的數據集; BY 變量; RUN;
e.g.Proc sort date=stockreturn;
by firm date;run;
9.宏
在宏變量前加&來引用宏變量的值。
用一個百分號(%)加宏名稱就可以調用該宏。%macro 宏變量名:定義宏變量
%DO
:條件處理至一個匹配的%END出現 %If-%Then /%Else :有條件執行宏
10.MERGE語句
用MERGE語句合并SAS數據集。但是,輸入數據集必須預先按該BY變量排序。語句一般形式為: 式為:
DATA 新數據集 ;
MERGE 輸入數據集1 輸入數據集2 … ; BY 變量; RUN;
e.g.下圖展示合并數據集A、B 的結果:
Data gooddata;Merge stockreturn sample(in=a);By firm;If a=1;Run;注意:這里merge語句使用了兩個選項,當一個SAS數據步同時讀入多個SAS數據集時,可以使用IN=選項來確定本觀測來自哪個數據集,in=選項的一般形式是:SAS-data-set(IN=variable)。其中,variable是一個臨時的數值型變量; Variable=0 表示觀測不是來自本數據集; Variable=1表示觀測是來自本數據集;
在這里使用IN選項的目的就是把所有來自數據集sample的觀測輸出到新數據集gooddata中。
11.REG語句
REG過程用來進行回歸分析。
在MODEL語句中有許多選項,其中的幾個選項如下:
CLM
回歸估計值0.95置信區間的上界和下界。CLI
因變量預報值的0.95置信區間。
P
由輸入數據和回歸方程計算預報值。輸出觀測序號,ID變量(需事先規定ID語句),實際值,預報值和殘差。如果已規定了CLM、CLI或R,選項P就不需要了。
R
要求殘差分析,輸出包括選項P的一切內容外,還有其它一些分析
12.MEANS語句
MEANS對指定的數值變量進行簡單的統計描述。13.OPTIONS語句
?
OPTIONS語句臨時改變SAS系統的選項設置。?
改變后的選項設置在以后的SAS會話或作業中保持有效,直到再次改變它們。
?
改變SAS系統選項可以用OPTIONS語句,或用顯示管理命令OPTIONS菜單。
語句格式:
OPTIONS option-1 <...option-n>;其中:
option規定要改變的SAS系統選項。
第五篇:SAS數據輸入總結
SAS學習總結
一、SAS的數據錄入
(1)直接輸入
data first;
input name $ salary;
datalines;a 12b 34c 56d 78
;
run;
注意:datalines的位置以及數據錄入后的分號
(2)借助infile可讀入文本格式為dat、txt、csv
A.最簡單的形式
data first;
infile 'c:userslichaodesktopsasdatatoadjump.dat';
input Toadname $ Jump1 Jump2 Jump3 Jump4;
run;
proc print data=work.first;
run;
B.有空格的情況,需要數一下
data second;
infile 'c:userslichaodesktopsasdataonionring.dat';
input Name $ 1-19 Jump1 22-24 Jump2 25-28 Jump3 30-31 Jump4 33-34 Jump5 37 Jump6 40;
run;
proc print data=work.second;
run;
C.格式重復的情況
data third;
infile 'c:userslichaodesktopsasdataexercise.dat';
input Num1 Num2 Num3 @@;
run;
proc print data=work.third;
run;
注意:@@的用法
D.其他的格式
Ⅰ.輸出特定的行
data icecream;
infile 'c:userslichaodesktopsasdataicecreamsales2.dat' firstobs=3 obs=5;
input Flavor $ 1-9 Location Boxessold;
run;
proc print data=icecream;
run;
注意:firstobs和obs的位置不要改變,而且兩者可以單獨使用
Ⅱ.有缺失值
data class;
infile 'c:userslichaodesktopsasdataallscores.dat' missover;
run;
proc print data=class;
run;
注意:在有缺失值的情況下,如果輸出有錯誤的話就用missover
Ⅲ.非正常的輸入:
data third;
infile 'c:userslichaodesktopsasdatapumpkin.dat';
input Name $16.num 3.type $2.date $11.(num1 num2 num3 num4 num5)(4.1);run;
proc print data=third;
run;
注意:16.和3.、4.1等的表示方法,都是表示寬度,相比較數列數的方法更有效;輸入格式相同的話可以加括號把格式寫在后面的括號里。
Ⅳ.日期的輸入:
按照數值處理,根據情況,使用MMDDYYw.或者 DDMMYYw.(3)import 錄入其他格式的文件(可導入的格式非常多)
proc import datafile='c:userslichaodesktopsasdatasecond.xls' dbms=xls out=mydata replace;sheet=“sheet1$”;
range=“a1:b3”;
run;
proc print data=mydata;
run;
注意:sheet表示單元表的名字,range表示導入的數據范圍
input name $ test1 test2 test3 test4 test5;