sas怎么sas 计算日期差样本组内差,样本组间差

您的位置: &
两组独立样本资料t检验中检验效能的探讨及SAS的实现
优质期刊推荐当前位置: >>
SAS的基本统计功能
?SAS 的基本统计功能?§4.1 一些单变量检验问题 o o o ? o o o o ? o o o o ? o o o4.1.1 正态性检验 4.1.2 两独立样本的均值检验 4.1.3 成对总体均值检验 4.2.1 用 SAS/INSIGHT 进行曲线拟合 4.2.2 用 SAS/INSIG
HT 进行线性回归分析 4.2.3 用 SAS/INSIGHT 拟合广义线性模型 4.2.4 用 REG 过程进行回归分析 4.3.1 用 ANOVA 过程进行单因素方差分析 4.3.2 用 NPAR1WAY 进行非参数单因素方差分析 4.3.3 多重比较 4.3.4 多因素方差分析 4.4.1 列联表的输入与制表 4.4.2 列联表独立性检验 4.4.3 属性变量关联度计算§4.2 回归分析§4.3 方差分析入门§4.4 列联表分析前面我们已经看到了 SAS 的编程计算、数据管理能力、数据汇总、数据探索分析能力。这一章 我们讲如何用 SAS 进行基本的统计检验、线性回归、方差分析、列联表检验等基本统计分析。 我们既使用 SAS 语言编程,也使用 SAS/INSIGHT 的菜单界面。一些单变量检验问题对单个变量,我们可能需要作正态性检验、两独立样本均值相等的检验、成对样本均值相等的 检验。正态性检验在 PROC UNIVARIATE 语句中加上 NORMAL 选项可以进行正态性检验。例如,我们要检验 SASUSER.GPA 中 GPA 是否服从正态分布,只要用如下 UNIVARIATE 过程: proc univariate data=sasuser. 结果(部分)如下: Univariate Procedure Variable=GPA College Grade Point Average Moments ???? W:Normal 0.951556 Pr&W ????0.0001其中 W:Normal 为 Shapiro-Wilk 正态性检验统计量,Pr&W 为检验的显著性概率值(p 值)。当 N≤2000 时正态性检验用 Shapiro-Wilk 统计量,N&2000 时用 Kolmogorov D 统计量。我们可以 看到,p 值很小,所以在 0.05 水平(或 0.10 水平)下应拒绝零假设,即认为 GPA 分布非正态。 在 SAS/INSIGHT 中为了检验 GPA 的分布,先选“Analyze | Distribution”菜单打开 GPA 变 量的分布窗口,然后选“Curves | Test for Distribution”菜单。除了可以检验是否正态分 布外还可以检验是否对数正态、指数分布、Weibull 分布。两独立样本的均值检验假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。 如果两个总体都分别服从正态分布,而且方差相等,可以使用两样本 t 检验过程 TTEST 。 比如,我们要检验 SASUSER.GPA 数据集中男生和女生的 SATM 分数是否具有相等的平均值,只 要用如下程序: proc ttest data=sasuser. 过程中用 CLASS 语句指定分组变量,用 VAR 语句指定要比较的变量。结果如下: TTEST PROCEDURE Variable: SATM Math SAT Score SEX N Mean Std Dev Std Error ----------------------------------------------------------------------------Female 145 611... Male 79 565... Variances T DF Prob&|T| --------------------------------------Unequal 4. 0.0001 Equal 3. 0.0001 For H0: Variances are equal, F' = 1.03 DF = (144,78) Prob&F' = 0.9114 结果有三个部分:两个总体的 SATM 简单统计量,两样本均值的检验,以及两样本方差是否相 等的检验。 标准的两样本 t 检验要求两总体方差相等, 所以第三部分结果检验两样本方差是否 相等。如果检验的结果为相等,则可使用精确的两样本 t 检验,看第二部分结果的 Equal 那一 行。 如果方差检验的结果为不等, 则只能使用近似的两样本 t 检验, 看第二部分结果的 Unequal 那一行。这里我们看到方差检验的 p 值为 0.9114 不显著,所以可以认为方差相等,所以我们 看 Equal 行,p 值为 0.0001 在 0.05 水平下是显著的,所以应认为男、女生的 SATM 分数有显 著差异,女生分数要高。 上面的检验中对立假设是两组的均值不等,所以检验是双边的,p 值的计算公式为 Pr(t 分布 随机变量绝对值&计算得到的 t 统计量的绝对值)。 如果要进行单边的检验, 比如对立假设为女 生分数高于男生分数(右边),则 p 值为 Pr(t 分布随机变量&计算得到的 t 统计量) ,当计算 得到的 t 统计量值为正数时(现在 t=4.0)此单边 p 值为双边 p 值的一半,当计算得到的 t 统 计量为负数时肯定不能否定零假设。检验左边时恰好相反。 如果我们希望检验男、女生的 GPA 分数则无法使用两样本 t 检验,因为检验女生的 GPA 样本 的正态性发现它非正态。 这种情况下我们可以使用非参数检验。 检验两独立样本的位置是否相 同的非参数检验有 Wilcoxon 秩和检验。我们用 NPAR1WAY 过程加 Wilcoxon 选项可以进行这种 检验。见下例: proc npar1way data=sasuser. 其 CLASS 语句和 VAR 与 TTEST 过程相同。结果如下: N P A R 1 W A Y P R O C E D Wilcoxon Scores (Rank Sums) for Classified by Variable SEX Sum of Expected N Scores Under H0 145
79 87.5000 Average Scores Were Used for U R E Variable GPA Std Dev Under H0 463..429146 Ties Mean Score 110..601266SEX Female MaleWilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 9132.50 Z = 0.527589 Prob & |Z| = 0.5978 T-Test Approx. Significance = 0.5983 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.27949 DF = 1 Prob & CHISQ = 0.5970 结果分为四部分:两样本的秩和的有关统计量,Wilcoxon 两样本检验的结果,t 检验的近似显 著性,Kruskal-wallis 检验结果。我们只要看 Wilcoxon 检验的 p 值 Prob & |Z| = 0.5978 , 检验结果不显著,可认为男、女生的 GPA 分数在 0.05 水平下无显著差异。 SAS/INSIGHT 中未提供两独立样本检验的功能。成对总体均值检验我们在现实中经常遇到两个总体是相关的测量结果的比较, 比如, 考察同一组人在参加一年的 长跑锻炼前后的心率有无显著差异。这时,每个人一年前的心率和一年后的心率是相关的,心 率本来较快的人锻炼后仍相对于其它人较快。 所以, 检验这样的成对总体的均值不能使用两样 本 t 检验的方法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是 否为零,这等价于检验两组测量值的平均水平有无显著差异。 检验单个样本的均值是否为零只要使用 UNIVARIATE 过程, 在 UNIVARIATE 过程的矩部分给出了 均值为零的 t 检验和符号检验、符号秩检验的结果。例如,我们想知道 SATM 和 SATV 这两门考 试的成绩有无显著差异(SATM 平均值为 595.3,SASTV 平均值为 504.6,我们希望知道差异是 否显著)。因为这两个成绩是同一个学生的成绩,所以它们之间是相关的(学得好的学生两科 一般都好,学得差的一般两科都差),不能用独立两样本的 t 检验,但可以计算两变量间的差 DMV =SATM-SATV,检验差值变量的均值是否为零。如果否定,则可认为 SATM 和 SATV 的平均 值有显著差异。 为此,我们先用一个数据步计算差值,然后对差值变量用 UNIVARIATE 过程进行分析就可以得 到结果。程序如下: set sasuser. dmv = satm - proc univariate data= 结果(部分)如下: Univariate Procedure Variable=DMV Moments N Mean Std Dev 224 90.31 Sum Wgts Sum Variance 224 .28 Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank-0.5 102.23 215 73.5 9757.5Kurtosis CSS Std Mean Pr&|T| Num & 0 Pr&=|M| Pr&=|S|-0.3 6...1我们只要看其中的三个检验:T: Mean=0 是假定差值变量服从正态分布时检验均值为零的 t 统 计量值,相应的 p 值 Pr&|T|为 0.0001 在 0.05 水平下是显著的,所以可认为两科分数有显著 差异。M(Sign)是非参数检验符号检验的统计量,其 p 值 Pr&=|M|为 0.0001 在 0.05 水平下是 显著的, 结论不变。 Sgn Rank 是非参数检验符号秩检验的统计量, 其 p 值 Pr&=|S|为 0.0001 在 0.05 水平下是显著的,结论不变。所以这三个检验的结论都是两科成绩有显著差异。 如果 t 检验对立假设是单边的,其 p 值算法与上面讲的两样本 t 检验 p 值算法相同。 在 SAS/INSIGHT 中比较成对样本均值的显著差异, 同样是先计算两变量的差值变量 (在“Edit | Variables | Other”菜单中,指定两个变量,指定两个变量间的计算为减法,则可以生成 差值变量,可以用数据窗口菜单的“Define Variables”改变量名),然后对此差值变量选 “Analyze | Distribution”,选“Tables | Location Tests”并选中 t 检验、符号检验和 符号秩检验即可在分布窗口显示结果。回归分析本节先讲述如何用 SAS/INSIGHT 进行曲线拟合, 然后进一步讲如何用 SAS/INSIGHT 进行线性回 归,简单介绍 SAS/INSIGHT 的广义线性模型拟合,最后介绍如何用编程进行回归分析。用 SAS/INSIGHT 进行曲线拟合两个变量 Y 和 X 之间的相关关系经常可以用一个函数来表示,一元函数可以等同于一条曲线, 实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系。 最基本的“曲线” 是直线, 还可以用多项式、样条函数、核估计和局部多项式估计。其模型可表示为例如,我们要研究 SASUSER.CLASS 数据集中学生体重与身高之间的相关关系。为此,我们可以 先画出两者的散点图(Analyze | Scatter plot)。从图中可以看出,身高越高的人一般体重 越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线,只要选 “Analyze | Fit (Y X)”,并选体重为 Y 变量,身高为 X 变量,即可自动拟合出一条回归直线,见图 1。 窗口中还给出了拟合的模型方程、参数估计、诊断信息等,我们在下一小节再详细介绍。 在拟合了直线后,为拟合多项式曲线,只要选“Curves | Polynomial”,然后输入阶次 (Degree(Polynomial)),就可以在散点图基础上再加入一条多项式曲线。对于本例,我们看 到二次多项式得到的曲线与直线差别很小, 所以用二次多项式拟合没有优势。 还可以试用三次、 四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit 中的 Degree(Polynomial))。 样条曲线是一种非参数回归的曲线拟合方法。 光滑样条为分段的三次多项式, 曲线在每一段内 是一个三次多项式,在两段的连接点是连续、光滑的。为拟合样条曲线,只要选“Curves | Spline”,使用缺省的 GCV 准则(广义交叉核实)来选取光滑系数(光滑系数 c 越大,得到的 曲线越光滑,但拟合同时变差,光滑系数 c 小的时候得到的曲线较曲折,而拟合较好),就可 以在散点图的基础上画出样条曲线。可以用光滑系数 c 的滑块来调整曲线的光滑程度/拟合优 度。对于本例,GCV 准则得到的样条曲线与回归直线几乎是重合的,说明直线拟合可以得到满 意的结果。 核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数 态分布密度曲线,然后用如下公式估计经验公式 : ,例如使用标准正其中为光滑系数,越大得到的曲线越光滑。为了画核估计曲线,只要选“Curves |Kernel”,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的 GCV 法,就可以把核 估计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动 调整光滑系数 的值,可以看到,当 过大时曲线不仅变光滑而且越来越变水平,因为这时 增大时曲线变光滑但不的拟合值基本是一个常数,这与样条曲线的情形不同,样条曲线当 趋向于常数(水平线)。 局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一 个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。SAS/INSIGHT 缺省使用一阶 (线性)局部多项式。改变 Loess 的系数 alpha 可以改变曲线的光滑度。alpha 增大时曲线变 光滑,而且使用一阶或二阶多项式时曲线不会同时变水平。 固定带宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数 c。用 SAS/INSIGHT 进行线性回归分析上面我们已经看到,用菜单“Analyze | Fit (Y X)”就可以拟合一条回归直线,这是对回归 方程的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。线性模型写成矩阵 形式为下面列出了线性模型中常用的一些量和结论:? ? ? ? ? ? ?为 为 为 为因变量向量 矩阵,一般第一列元素全是 1,代表截距项 未知参数向量 随机误差向量,元素独立且方差为相等的 (未知)。正常情况下,系数的估计为 拟合值(或称预报值)为 其中 是 空间内向 算子矩阵,叫做“帽子”矩阵。 拟合残差为 的列张成的线性空间 投影的投影? ?残差平方和为? ?误差项方差的估计为 (要求设计阵 在线性模型的假设下,若设计阵 估计的方差阵满秩) 均方误差 (MSE) 满秩, 。 和 分别是 和 的无偏估计,系数?判断回归结果优劣的一个重要指标为复相关系数平方 (决定系数)(其中 所以),它代表在因变量的变差中用模型能够解释的部分的比例, 越大说明模型越好。例如,我们在“Fit (Y X)”的选择变量窗口选 Y 变量(因变量)为体重(WEIGHT),选 X 变 量(自变量)为身高(HEIGHT)和年龄(AGE),则可以得到体重对身高、年龄的线性回归结 果。下面对基本结果进行说明。 回归基本模型: WEIGHT = HEIGHT Response Distribution: Link Function: 回归模型方程: WEIGHT = 拟合概况: 141.2238 + Model Equation 3.5970 HEIGHT + 1.2784 AGE AGE Normal IdentityMean of Response Root MSESummary of Fit 100.0263 R-Square 11.5111 Adj R-Sq0.5其中 Mean of Response 为因变量(Response)的均值,Root MSE 叫做根均方误差,是均方误 差的平方根,R-Square 即复相关系数平方,Adj R-Sq 为修正的复相关系数平方,其公式为,其中 当有截距项时取 1,否则取 0,这个公式考虑到了自变量个 数 为 的多少对拟合的影响,原来的 对它有一个单调减的影响所以 随着自变量个数的增加总会增大,而修正的 增大时修正的 则因不一定增大,便于不同自变量个数 的模型的比较。 方差分析表: Analysis of Variance Sum of Squares Mean Square 07.97 132.68 .Source Model Error C TotalDF 2 16 18F Stat 27.2275 . .Prob & F 0.0001 . .这是关于模型是否成立的最重要的检验。它检验的是:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因变量没有解释作用。 它依据的是一个标准的方差分解, 把因 变量的总离差平方和(C Total)分解为能用模型解释的部分(Model)与不能被模型解释的部 分(随机误差,Error)之和,如果能解释的部分占的比例大就否定 。F 统计量(F Stat)就是这个比例 (用自由度修正过) 。 从上面结果看我们这个模型很显著 (p 值不超过万分之一) , 所以可以否定 第三类检验: Type III Tests Sum of Squares Mean Square 91.0 22.3880 。Source HEIGHT AGEDF 1 1F Stat 15.0Prob & F 0.5这个表格给出了对各斜率项是否为零( )的检验结果。检验利用的是所谓第三 类平方和(Type III SS),又叫偏平方和,它代表在只缺少了本变量的模型中加入本变量导 致的模型平方和的增加量。比如,HEIGHT 的第三类平方和即现在的模型平方和减去删除变量 HEIGHT 的模型的模型平方和得到的差。第三类平方和与模型中自变量的次序无关,一般也不 构成模型平方和的平方和分解。 表中用 F 统计量对假设进行了检验, 分子是第三类平方和的均 方,分母为误差的均方。实际上,当分子自由度为 1 时,F 统计量即通常的 t 检验统计量的平 方。从表中可见,身高的作用是显著的,而年龄的作用则不显著,有可能去掉年龄后的模型更 好一些。 参数估计及相关统计量: Parameter Estimates Estimate Std Error -141.1 3.5Variable INTERCEPT HEIGHTDF 1 1T Stat -4.6Prob &|T| 0.1 AGE11.1 Parameter Estimates Tolerance Var Inflation . 0.6 2.6 2.92760.41100.6865对截距项系数和各斜率项系数,给出了自由度(DF),估计值(Estimate),估计的标准误差 (Std Error) , 检验系数为零的 t 统计量, t 统计量的 p 值, 检验共线性的容许度 (Tolerance ) 和方差膨胀因子(Var Inflation)。其中自变量 的容许度定义为 1 减去 对其它自变量的复相关系数平方,因此容许度越小(接近 0),说明 大,即 可以很好地被其它自变量的线性组合近似,这样 ,则 ,对其它自变量的复相关系数平方 在模型中的作用不大。记 的系叫做方差膨胀因子,它代表数估计的方差的比例系数,显然其值越大说明估计越不准确,也说明 大。方差膨胀因子与容许度互为倒数。在模型中的作用不下一个结果为残差对预测值的散点图,用它可以检验残差中有无异常情况,比如非线性关系、 异方差、模型辨识错误、异常值、序列相关等等。此例中各散点较随机地散布在 0 线的上下, 没有明显的模式,可认为结果是合适的(多余的不显著的变量 AGE 不反映在残差图中)。 用 Tables 菜单可以加入一些其它的统计量。用 Graphs 菜单可以加入残差的正态概率图 (Residual Normal QQ)和偏杠杆图(Partial Leverage)。 在 Vars 菜单中可以指定一些变量,这些变量可以加入到数据窗口中。数据窗口的内容保存在 内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的修改结果的话需要用“File | Save | Data”命令指定一个用来保存的数据集名。为了了解加入的变量的具体意义,选数据 窗口菜单中的“Data Options”,选中“Show Variable Labels”选项。各变量中,Hat Diag 为帽子矩阵的对角线元素(帽子矩阵 恰好是 的),即杠杆率,反映了每个观测的影响大小。Predicted 为拟合值(预报值),Linear Predictor 为使用线性模型拟合的结果,在 线性回归时与 Predicted 相同。Residual 为残差。Residual Normal Quantile 是残差由小到大排序后对应的标准正态的分位数,第 中个残差的正态分位数用计算,其为标准正态分布函数。Standardized Residual (标准化误差)为残差除以其标准误差。Studentized Residual(学生化残差)为与标准化残差类似,但计算第 个学生化残差时预测 值和方差估计都是在删除第 个观测后得到的。 当学生化残差的值超过 2 时这个观测有可能是 强影响点或异常点。 关于其它的一些诊断统计量请参考帮助菜单的“Extended Help | SAS System Help: Main menu | Help for SAS Products | SAS/INSIGHT | Techniques | Multiple Regression” ,或《SAS 系统:SAS/STAT 软件使用手册》第一章和第九章。 在 SAS/INSIGHT 中,为了保存结果表格,在进行分析之前选中菜单“File | Save | Initial Tables”,这是一个状态开关,选中时输出表格画在分析窗口内的同时显示在输出(Output ) 窗口。如果要保存某一个表格,也可以选定此表格(单击表格外框线),然后用菜单“File | Save | Tables”。为了保存分析窗口的图形,先选定此图形,然后选“File | Save | Graphics File”,输入一个文件名,选择一种文件类型如 BMP 即可。为了打印某一表格或图形,先选定 它,然后用菜单“File | Print”。选中“File | Save | Statments”可以开始保存 SAS/INSIGHT 语句。用 SAS/INSIGHT 拟合广义线性模型经典线性回归理论的估计与假设检验要求自变量 为常数(非随机),随机误差项满足。广义线性模型放宽了这些假设,其模型为其中因变量(向量)的元素为服从指数族分布(如正态、逆高斯、伽马、泊松、二 ( 向量)的元素为与 分布类型相同的随机误差项,元素之项分布)的随机变量, 间相互独立,单调函数 的线性组合联系起来。 的一列或几列, 量的变量。 (叫做联系函数,它把因变量的均值与自变量(阵) 中向量)为回归系数。模型中每个自变量对应于设计阵 (的第一列一般元素全为 1,对应于截距项。向量)是表示偏移注:随机变量 Y 称为服从指数族分布,如果其分布密度(概率函数)有如下形式:其中为自然参数或称经典参数,为分散度参数(与尺度参数相关), a, b, c 为确定性函数。这样的自变量 Y 的均值和方差与参数的关系如下:为了使用 SAS/INSIGHT 拟合广义线性模型,在选“Analyze | Fit (Y X)”之后,选定因变量 和自变量,然后按“Method”按钮,出现选择模型的对话框,在这里可以选因变量的分布类型 (Response Dist.),选联系函数,选估计尺度参数的方法。 各联系函数定义如下: Identity Log恒等变换 自然对数Logit Probit,其中为标准正态分布函数Comp. Log-LogPower,在对话框的 Power 输入框指定。对指数族中每一个因变量分布有一个特定的联系函数,使得,即用分布的期望值表示经典参数,这样的联系函数叫经典(canonical)联系函数。正态分布的经典联系函 数为恒等变换,逆高斯分布为-2 次方变换,伽玛分布为-1 次方变换,泊松分布为对数变换, 二项分布为逻辑变换(Logit )。注意 Logit、probit、复合重对数变换都只适用于二项分布。 例如,SASUSER.INGOTS 中存放了一个铸造厂的数据,它记录了各批铸件在一定的加热、浸泡 时间条件下出现的不能开始轧制的铸件数目。HEAT 为加热时间,SOAK 为浸泡时间,N 为每批 铸件的件数,R 为加热浸泡后 N 件铸件中还不能开始轧制的铸件数。R 应该服从二项分布,其 分布参数(比例)可能受加热、浸泡时间的影响。因此,我们拟合以 R 为因变量,以 HEAT 和 SOAK 为自变量的广义线性模型,因变量分布为二项分布,使用经典联系函数(Logit 函数)。 模型为为了拟合这样的模型,选“Analyze | Fit(Y X)”,选 R 为 Y 变量,选 HEAT 和 SOAK 为自变量, 按“Method”钮,选因变量分布为二项分布(Binomial),选变量 N 然后按“Binomial”钮, 两次 OK 后即可以得到模型拟合窗口。可以看到,这个模型是显著的,但变量 SOAK 没有显著影 响。去掉变量 SOAK 重新拟合模型。可以看出,HEAT 的系数为 0.0807 是正数,说明加热时间 越长不能轧制的件数越多。 考察拟合结果窗口下方的残差对预报值图可以发现在右下方有三个 异常点,用刷亮方法选定它们,可以看到,这三个观测都是总共只有一个铸件的,所以对一般 结果意义不大。选“Edit | Observations | Exclude in Calculation”可以把这几个点排除 在外,发现结果基本不变。用 REG 过程进行回归分析SAS/STAT 中提供了几个回归分析过程, 包括 REG (回归) 、 RSREG (二次响应面回归) 、 ORTHOREG (病态数据回归)、NLIN(非线性回归)、TRANSREG(变换回归)、CALIS(线性结构方程和 路径分析)、GLM(一般线性模型)、GENMOD(广义线性模型),等等。我们这里只介绍 REG 过程,其它过程的使用请参考《SAS 系统DDSAS/STAT 软件使用手册》。 REG 过程的基本用法为: PROC REG DATA=输入数据集 选项; VAR 可参与建模的变量列表; MODEL 因变量=自变量表 / 选项; PRINT 输出结果; PLOT 诊断图形; RUN; REG 过程是交互式过程,在使用了 RUN 语句提交了若干个过程步语句后可以继续写其它的 REG 过程步语句,提交运行,直到提交 QUIT 语句或开始其它过程步或数据步才终止。 例如,我们对 SASUSER.CLASS 中的 WEIGHT 用 HEIGHT 和 AGE 建模,可以用如下的简单 REG 过 程调用: proc reg data=sasuser. v model weight=就可以在输出窗口产生如下结果,注意程序窗口的标题行显示“PROC REG Running”表示 REG 过程还在运行,并没有终止。 Model: MODEL1 Dependent Variable: WEIGHTWeight in pounds Analysis of Variance Sum of Squares
Mean Square
132.50623Source Model Error C Total Root MSE Dep Mean C.V.DF 2 16 18F Value 27.228Prob&F 0.000111.632 11.50811R-square Adj R-sq0.5Parameter Estimates Parameter Standard T for H0: Variable INTERCEP HEIGHT AGEDF 1 1 1Estimate -141...278393 Variable Label Intercept Height in inches Age in yearsError 33...Parameter=0 -4.230 3.973 0.411Prob & |T| 0.1 0.6865Variable INTERCEP HEIGHT AGEDF 1 1 1这些结果与 SAS/INSIGHT 得到的结果是一致的。 同样我们发现变量 AGE 的作用不显著, 所以我 们只要再提交如下语句: model weight= 就可以得到第二个模型结果: Model: MODEL2 Dependent Variable: WEIGHT ?????Weight in pounds事实上,REG 提供了自动选择最优自变量子集的选项。在 MODEL 语句中加上“SELECTION= 选 择方法”的选项就可以自动挑选自变量,选择方法有 NONE(全用,这是缺省)、FORWARD (逐 步引入法)、BACKWARD(逐步剔除法)、STEPWISE(逐步筛选法)、MAXR(最大 MINR(最小 的 增量法)、RSQUARE( 选择法)、ADJRSQ(修正 增量法)、选择法)、CP(Mallows统计量法)。比如,我们用如下程序:model weight=height age / selection= 可得到如下结果: Stepwise Procedure for Dependent Variable WEIGHT Step 1 Variable HEIGHT Entered DF Regression Error 1 17 R-square = 0. Mean Square 4 126. C(p) = 1. F 57.08 Prob&F 0.0001Sum of Squares 4 7 Total18 Parameter Estimate -143..1 Standard Error 32.. Type II Sum of Squares 0 4Variable INTERCEP HEIGHTF 19.64 57.08Prob&F 0.1Bounds on condition number: 1, 1 -----------------------------------------------------------------------------All variables left in the model are significant at the 0.1500 level. No other variable met the 0.1500 significance level for entry into the model. Summary of Stepwise Procedure for Dependent Variable WEIGHT Variable Step Entered Removed Label HEIGHT Height in inches Number In Partial R**2 Model R**2 C(p) F Prob&F110.77050.77051.169057.07630.0001可见只有变量 HEIGHT 进入了模型,而其它变量(AGE)则不能进入模型。 REG 过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要在 PROC REG 过程语 句中加上 GRAPHICS 选项, 用 PRINT 语句和 PLOT 语句显示额外的结果。 为了显示模型的预测值 (拟合值)和 95%预测界限,使用语句 得到如下的结果: Obs 1 2 3 4 5 6 7 8 9 Dep Var WEIGHT 84.0 90.0 84. 50. 102.5 Predict Value 77. 107.7 76.1 116.3 56. 101.8 Std Err Predict 3.963 2.995 2.768 4.042 2.889 3.354 6.251 2.577 2.587 Lower95% Predict 52.9 83.5 65.8 29.2 77.5263 Upper95% Predict Residual 102.4 136.1 132.1 101.7 114.6 141.0 84. 126.1 6.8 -17.5 -5.6 -6.5 0.6678 10 11 12 13 14 15 16 17 18 19112.5 102.5 133.0 83.0 99. 128.0 85.126.0 104.6 118.2 80. 87. 109.6 81. 0 51.35214.296 2.645 3.525 3.659 2.577 3.098 5.613 2.872 3.587 3.354100.6 80.7 55.2 62. 85.5 91.5388151.4 128.9 143.0 105.3 125.0 111.6 164.2 134.1 106.0 141.0-13.5 14.5 -16.1 12.8 3.6Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)各列分别为观测序号(Obs),因变量的值(Dep Var),预测值(Predict Value),预测值 的标准误差(Std Err Predict),95%预测区间下限(Lower 95% Predict),95%预测区间 上限(Upper 95% Predict),残差(Residual,为因变量值减预测值)。在表后又给出了残 差的总和(Sum of Residuals),残差平方和(Sum of Squared Residuals),预测残差的平 方和(Predicted Resid SS (Press))。所谓预测残差,是在计算第 i 号观测的残差时从实 际值中减去的预报值是用扣除第 i 号观测后的样本得到的模型产生的预报值, 而不是我们一般 所用的预测值(实际是拟合值)。第 i 号样本的预测残差还可以用公式 来计算,其中 为帽子矩阵 的第 i 个主对角线元素。用 print cli 列出的是实际值的预测界限,还可以列出模型均值的预测界限,使用 语句。在 PRINT 语句中可以指定的有 ACOV, ALL, CLI, CLM, COLLIN, COLLINOINT, COOKD, CORRB, COVB, DW, I, INFLUENCE, P, PARTIAL, PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, XPX,等等。 对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。 比如, plot weight * height / conf95; 可以产生图 4,在图的上方列出了模型方程,右方还给出了观测个数、、修正、均方误差开根。在 PLOT 语句中可以使用 PREDICTED. 、RESIDUAL.等特殊名字表示预测值、残差等 计算出的变量, 比如, 在自变量为多元时无法作回归直线, 常用的诊断图表为残差对预测值图, 就可以用 plot residual. * predicted.; 绘制。为了绘制学生化残差的图形,可以用 plot rstudent. * obs.; 回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和 SAS 使用手册。方差分析入门统计学中用方差分析来研究分类变量(所谓“因素”)对数值型变量(所谓“指标” )的影 响。主要目的是研究某些因素对于指标有无显著的影响。对有显著影响的因素,一般希望找出 最好水平。用 ANOVA 过程进行单因素方差分析单因素方差分析是 4.1.2 问题的一个自然延续。 在 4.1.2 中, 我们有一个分类变量把观测分为 两组,我们要研究这两组的均值有没有显著差异。如果这个分类变量的取值不只两个,则这时 4.1.2 的检验方法不再适用,但我们同样要解决各组均值是否有显著差异的问题。如果各组之 间有显著差异,说明这个因素(分类变量)对指标是有显著影响的,因素的不同取值(叫做水 平)会影响到指标的取值。 例如,数据集 SASUSER.VENEER 中为比较若干种牌子的胶合板的耐磨情况得到的数据,变量 BRAND 为试样的牌子,变量 WEAR 为试样的磨损量。共有五种牌子的胶合板,每种试验了 4 个 试样。 我们希望知道这五种牌子胶合板的磨损量有无显著差别, 如果无显著差别我们在选购时 就不必考虑哪一个更耐磨而只需考虑价格等因素, 但如果结果有显著差异则应考虑使用耐磨性 好的牌子。这里,因素是胶合板的牌子,指标为磨损量,当各种牌子胶合板磨损量有显著差异 时, 说明因素的取值对指标有显著的影响。 所以, 方差分析的结论是因素对指标有无显著影响。 注意,经典的方差分析只判断因素的各水平有无显著差异,而不管两个因素之间是否有差异, 比如说我们的五个牌子即使有四个牌子没有显著差异, 只有一个牌子的胶合板比这四个牌子的 都好,结论也是说因素是显著的,或因素的各水平间有显著差异。 方差分析把指标的方差分解为由因素的不同取值能够解释的部分,和剩余的不能解释的部分, 然后比较两部分, 当能用因素解释的部分明显大于剩余的部分时认为因素是显著的。 方差分析 假定观测是彼此独立的,观测为正态分布的样本,由因素各水平分成的各组的方差相等。在这 些假定满足时,就可以用 ANOVA 过程来进行方差分析。其一般写法为 PROC ANOVA DATA=数据集; CLASS 因素; MODEL 指标=因素; RUN;比如,为了分析 SASUSER.VENEER 中各种牌子的胶合板的耐磨性有无显著差别,首先我们假定 假设检验使用的检验水平为 0.05,可以使用如下程序进行方差分析: proc anova data=sasuser. model wear= 结果如下: Analysis of Variance Procedure Class Level Information Class Levels Values BRAND 5 ACME AJAX CHAMP TUFFY XTRA Number of observations in data set = 20 Dependent Variable: WEAR Source F Model 0.0017 Error Corrected Total DF 4 15 19 Amount of material worn away Sum of Squares 0... Mean Square 0.. F Value 7.40 Pr & R-Square Mean 0.. Source F BRAND 0.0017 DF 4C.V. 6.155120Root MSE 0.WEARAnova SS 0.Mean Square 0.F Value 7.40Pr &结果可以分为四个部分,第一部分是因素水平的信息,我们看到因素只有一个 BRAND,它有 5 个水平,分别是 ACME、AJAX、CHAMP、TUFFY、XTRA。共有 20 个观测。第二部分就是经典的方 差分析表,表前面指明了因变量(指标)为 WEAR,第一列“来源”说明方差的来源,是模型 的(可以用方差分析模型解释的),误差的(不能用模型解释的),还是总和。第三列为平方 和,其大小代表了各方差来源作用的大小。第二列为自由度。第四列为均方,即平方和除以自 由度。第五列 F 值是 F 统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显 著性,如果不显著说明模型对指标的变化没有解释能力。第六列是 F 统计量的 p 值。由于这里 p 值小于 0.05(我们的检验水平),所以模型是显著的,因素对指标有显著影响。结果的第三 部分是一些与模型有关的简单统计量, 第一个是复相关系数平方, 与回归模型一样仍代表总变 差中能被模型解释的比例,第二个是变异系数,第三个是根均方误差,第四个是指标的均值。 结果的第四部分是方差分析表的细化, 给出了各因素的平方和和 F 统计量, 因为是单因素所以 这一行与上面的“模型”一行相同。用 NPAR1WAY 进行非参数单因素方差分析当方差分析的正态分布假定或方差相等假定不能满足时, 对单因素问题, 可以使用非参数方差 分析的 Kruskal-Wallis 检验方法。这种检验不要求观测来自正态分布总体,不要求各组的方 差相等,甚至指标可以是有序变量(变量取值只有大小之分而没有差距的概念,比如磨损量可 以分为大、中、小三档,得病的程度可以分为重、轻、无,等等)。 NPAR1WAY 过程的调用与 ANOVA 过程不同, 因为它是单因素方差分析过程, 所以只要用 CLASS 语 句给出分类变量(因素),用 VAR 语句给出指标就可以了,一般格式为: PROC NPAR1WAY DATA=数据集 WILCOXON; CLASS 因素; VAR 指标; RUN;注意这样的语句格式与 1.4.2 中两独立样本比较的做法完全相同。当“因素”有两个水平时, 执行 Wilcoxon 秩和检验,多个水平时执行 Kruskal-Wallis 检验。 比如,为了分析上面的胶合板例子中各牌子的耐磨性有无显著差异,取定 0.10 的检验水平, 可以用如下的 NPAR1WAY 过程: proc npar1way data=sasuser. 得到如下结果: N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable WEAR Classified by Variable BRAND Sum of Scores 40.0 44.0 12.0 69.0 45.0 Expected Under H0 42.0 42.0 42.0 42.0 42.0 Std Dev Under H0 10.....4830691 Mean Score 10.....2500000BRAND ACME CHAMP AJAX TUFFY XTRAN 4 4 4 4 4Average Scores Were Used for Ties Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 11.982 DF = 4 Prob & CHISQ = 0.0175结果分为两个部分, 第一部分是各组的秩和的情况, 包括观测个数 (N) 、 秩和 (Sum of Scores) 、 在各组无显著差异的零假设下的期望秩和(Expected Under H0)、在零假设下的标准差(Std Dev Under H0)、平均秩和(Mean Score,为秩和除以组内观测数)。下面的“Average Scores Were Used for Ties”是说当名次相同时(如两个第 2)用名次的平均值((2+3)/2=2.5)。 第二部分为 Kruskal-Wallis 检验的结果, 包括近似的 统计量, 自由度, 检验的 p 值 (Prob &CHISQ ) 。 现在 p 值 0.0175 小于预定的水平 0.10 所以结论是各种牌子的胶合板的耐磨性能有 显著差异。注意,Kruskal-Wallis 检验是非参数检验,在同等条件下非参数检验一般比参数 检验的功效低,所以这里的 p 值 0.0175 比用 ANOVA 过程得到的 p 值 0.0017 要大。多重比较方差分析只检验各组是否没有任何两两之间的差异,但不检验到底是哪两组之间有显著差异。 在三个或多个组之间进行两个或多个比较的检验叫做多重比较。 多重比较在统计学中没有一个 公认的解决方法,而是提供了若干种检验方法。因为多重比较要进行不只一次的比较,所以在 多重比较的检验水平有两种:总错误率(experimentwise error rate)和单次比较错误率。 总错误率是指所有比较(比如,五个组两两之间比较有 10 次)的总第一类错误概率,单次比 较错误率是指每一次比较的第一类错误概率。显然,总错误率要比单次比较错误率高。 在 ANOVA 过程中使用 MEANS 语句可以进行多重比较。格式如下: MEANS 因素 / 选项;如果不使用选项,则只对因素的各水平计算指标的平均值和标准差,比如: proc anova data=sasuser. model wear= 则在通常的方差分析结果基础上增加如下结果: Level of -------------WEAR-----------BRAND N Mean SD ACME AJAX CHAMP TUFFY XTRA 4 4 4 4 4 2..........要进行两两比较,有多种方法,可以在 MEANS 语句的选项中指定检验方法。 一、用重复 t 检验控制单次比较错误率 重复 t 检验的想法很简单: 在适当的检验水平下对两组之间进行两样本 t 检验并对所有组两两 之间检验。控制的是每次比较的第一类错误概率。缺省使用 0.05 水平。注意这样检验的总错 误率将大大高于每次比较的错误率。比如,在上面程序后加入(ANOVA 是交互式过程) means brand / 可得如下结果: T tests (LSD) for variable: WEAR NOTE: This test controls the type I comparisonwise error rate not the experimentwise error rate. Alpha= 0.05 df= 15 MSE= 0.020833 Critical Value of T= 2.13 Least Significant Difference= 0.2175 Means with the same letter are not significantly different. T Grouping A B B B B B CMean 2.0 2.0 2.0500N 4 4 4 4 4BRAND TUFFY XTRA CHAMP ACME AJAX结果先说明了检验的指标是变量 WEAR,然后说明了这种检验控制单次比较的第一类错误概率 而不是总的第一类错误概率。下面给出了检验的一些指标,比如水平(Alpha)为 0.05(控制 单次比较的第一类错误概率),自由度(df)为 15,误差的均方(MSE,是方差分析表中误差 的均方)为 0.020833,两样本 t 检验的 t 统计量的临界值(Critical Value of T)为 2.13, 如果两样本 t 检验的 t 统计量值绝对值超过临界值则认为两组有显著差异, 或者等价地, 如果 两组的均值之差绝对值大于最小显著差别(Least Significant Difference)0.2175 也是有 显著差异。下面列出了检验的结果,把因素各水平的指标平均值由大到小排列,然后把两两比 较的结果用第一列的字母来表示, 字母相同的水平没有显著差异, 字母不同的水平有显著差异。 所以我们看到,重复 t 检验的结果把五种牌子分成了 A、B、C 三个组,TUFFY 单独是一组,它 的磨损量最大;XTRA、CHAMP、ACME 是一组,这三种两两之间没有显著差异;AJAX 单独是一组, 其磨损量最小。 二、用 Bonferroni t 检验控制总错误率 Bonferroni t 检验通过把每次比较的错误率取得很小来控制总误差率。比如,共有 10 次比较 时,把每次比较的错误率控制在 0.005 就可以保证总错误率不超过 0.05,但是,这样得到的 实际总第一类错误率可能要比预定的水平小得多。在 MEANS 语句中使用 BON 语句可以执行 Bonferroni t 检验,缺省总错误率控制水平为 0.05。对上面的胶合板数据增加如下语句: means brand / 结果如下: Bonferroni (Dunn) T tests for variable: WEAR NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 15 MSE= 0.020833 Critical Value of T= 3.29 Minimum Significant Difference= 0.3354 Means with the same letter are not significantly different. Bon Grouping A A A A A A AMean 2.0 2.0 2.0500N 4 4 4 4 4BRAND TUFFY XTRA CHAMP ACME AJAXB B B B B B B结果先说明了检验类型和指标(变量 WEAR),然后说明了检验控制总第一类错误率,但一般 比 REGWQ 方法的第二类错误概率高(检验功效较低)。下面给出了几个检验用的值。最后给出 了 Bonferroni t 检验的结果,有相同分组字母的因素水平间无显著差异,否则有显著差异。 我们看到,TUFFY 与 XTRA、CHAMP、ACME 没有显著差异,与 AJAX 有显著差异;XTRA、CHAMP、 ACME 两两之间没有显著差异, 而且与其它两个也都没有显著差异; AJAX 与 TUFFY 有显著差异, 与其它三个没有显著差异。其分组是有交叉的。 三、用 REGWQ 检验控制总错误率 用 Bonferroni t 检验控制总错误率过于保守, 功效较低, 不易发现实际存在的显著差异。 REGWQ 方法可以控制总错误率并且一般比 Bonferroni t 检验要好。这种方法执行多阶段的检验,它 对因素水平的各种子集进行检验。在 MEANS 语句中用 REGWQ 选项可以进行 REGWQ 检验。例如, 在前面的例子后再运行 means brand/ 结果如下 Ryan-Einot-Gabriel-Welsch Multiple Range Test for variable: WEAR NOTE: This test controls the type I experimentwise error rate. Alpha= 0.05 Number of Means Critical Range df= 15 MSE= 0. 0.315162 3 4 0...2941581Means with the same letter are not significantly different. REGWQ Grouping A A Mean 2.6000 N 4 BRAND TUFFY A A A A A B2.0 2.04 4 4 4XTRA CHAMP ACME AJAX可见它比 Bonferroni 方法发现了较多的显著差异, 除了 TUFFY 和 AJAX 仍有显著差异以外, 还 发现 XTRA、CHAMP、ACME 也都与 AJAX 有显著差异。 MEANS 语句的选项可以同时使用。在 MEANS 语句中可以用 ALPHA=水平值来指定检验的水平。 ANOVA 过程中还提供了其它的多重比较方法,请自己参考有关资料。多因素方差分析SAS 提供了若干个方差分析过程, 可以考虑多个因素、 有交互作用、 有嵌套等情况的方差分析。 用 GLM 过程还可以用一般线性模型来处理方差分析问题。在这里我们只介绍如何用 ANOVA 过 程进行均衡设计的多因素方差分析。 例如,为了提高一种橡胶的定强,考虑三种不同的促进剂(因素 A)、四种不同分量的氧化锌 (因素 B)对定强的影响,对配方的每种组合重复试验两次,总共试验了 24 次,得到如下的 结果: 表格 1 橡胶配方试验数据 B:氧化锌 A:促进剂 1 2 3 31, 33 33, 34 35, 37 34, 36 36, 37 37, 38 35, 36 37, 39 39, 40 39, 38 38, 41 42, 44 1 2 3 4我们首先把数据输入为 SAS 数据集。输入的办法可以是直接输入各个观测,例如: input A B STREN;
1 1 31 1 1 33 1 2 34 1 2 36 1 3 35 1 3 36 1 4 39 1 4 38 2 1 33 ????? ; 也可以使用如下的直接循环控制的 INPUT 读取: do a=1 to 3; do b=1 to 4; do r=1 to 2; input stren @@; 31 33 34 36 35 36 39 38 33 34 36 37 37 39 38 41 35 37 37 38 39 40 42 44 ; 其中 INPUT 语句尾部的两个@符号表示多次 INPUT 语句可以从同一行去读取(否则每次 INPUT 语句运行时自动从下一行开始读)。 为了研究两个因素的主效应和交互作用,使用如下 ANOVA 过程: proc anova data= model stren = a b a*b; MODEL 语句中中 A 表示因素 A 的主效应,B 表示因素 B 的主效应,A*B 表示 A 和 B 的交互作用。 结果如下: Analysis of Variance Procedure Class Level Information Class Levels A 3 B 4 Number of observations in Dependent Variable: STREN Sum of Source Model Error Corrected Total DF 11 12 23 R-Square 0.917045 DF 2 3 6 Squares 193... C.V. 3.260152 Anova SS 56...Values 1 2 3 1 2 3 4 data set = 24Mean Square 17.. Root MSE 1.2076147 Mean Square 28... F Value 19.40 30.20 0.54 F Value 12.06 Pr & F 0.0001STREN Mean 37.041667 Pr & F 0.1 0.7665Source A B A*B结果首先给出了因素(Class)的变量名和各水平值,观测数。然后是总的方差分析表,指明 指标为变量 STREN,给出了模型、误差、总平方和,F 统计量值和 p 值。可见模型是显著的。 为了分析各作用的显著性,看后面的详细的方差分析表,它给出了模型中各作用(A、B、A*B ) 的平方和和检验的 F 统计量值及 p 值。可以看出,两个因素的主效应都是显著的,交互作用效 应不显著。所以,我们可以重新运行 ANOVA 过程,不指定交互作用效应: proc anova data= model stren = a b /这时模型的 F 统计量变为 30.53,因素 A 主效应的 F 统计量变为 22.89,因素 B 主效应的 F 统 计量变为 35.63,都增大了。两个因素的主效应仍是高度显著的,说明它们对定强都有显著影 响。为了找到最好的配方,在前面的 ANOVA 过程后使用 可以计算出每种水平下的指标平均值,因素 A(促进剂)在第三水平使指标(定强)最大,因 素 B(氧化锌)在第四水平使指标最大,所以最好的配方是:第三种促进剂,第四种氧化锌分 量。 ANOVA 也可以用来分析正交设计的结果。例如,为了提高某种试剂产品的收率(指标),考虑 如下几个因素对其影响: 表格 2 试剂产品影响因素 A:反应温度 B:反应时间 C:硫酸浓度 D:硫酸产地 E:操作方式 1 (50℃) 1 (1 小时) 1 (17%) 1 (天津) 1 (搅拌) 2 (70℃) 2 (2 小时) 2 (27%) 2 (上海) 2 (不搅拌)把这五个因素放在 用 ANOVA 过程可以分析:表的五列上,得到如下的试验方案及结果(见下面的数据步)。 input temp tim 1 1 1 1 1 65 1 1 1 2 2 74 1 2 2 1 2 71 1 2 2 2 1 73 2 1 2 1 2 70 2 1 2 2 1 73 2 2 1 1 1 62 2 2 1 2 2 69 ; proc anova data= class tem model prod = temp-- means temp--mix / 用 0.05 水平,得到的模型是显著的(模型 p 值为 0.0250),各因素的检验结果如下: Source TEMP TIME CONC MANU DF 1 1 1 1 Anova SS 10.... Mean Square 10.... F Value 16.20 9.80 57.80 88.20 Pr & F 0.7 0.1 MIX115.15.24.200.0389可见硫酸浓度、产地、操作方式是显著的,必须采用它们的最好水平,温度、时间不显著,在 同等条件下可以优先采用它们的最好水平。 从 MEANS 语句的结果可以知道, 硫酸浓度的最好水 平是水平 2 (27%) , 硫酸产地的最好水平是水平 2 (上海) , 操作方式的最好水平是水平 2 (不 搅拌),反应温度的最好水平是水平 1(50℃),反应时间的最好水平是水平 1(1 小时)。 从以上分析可以得到好的生产方案。列联表分析上面所讲到的统计分析主要针对数值型(区间)变量进行。在实际工作中,离散取值的名义变 量(如性别、职业、民族)和有序变量(如调查意见的完全同意、同意、中立、反对、强烈反 对) 也是十分常见的, 对这类离散变量 (又称属性变量) 的分析也是统计学的重要的研究内容。 这一节我们讲述检验两个离散取值的变量的独立性的列联表检验方法, 并介绍有序变量的关联 性量度的算法。列联表的输入与制表离散变量的取值可以把样本进行分类。比如,我们的样本是一个班的学生情况,可以根据学生 的性别把观测分为男生和女生两个组。 我们也可以根据学生的来源把观测分为本地学生和外地 学生两个组。如果联合使用这两个变量对观测分类,就可以把观测分为四个组,我们可以统计 每个组学生的人数,并把结果画成一个表格: 表格 3 学生性别、来源分布表 男生 本地 外地 4 14 女生 6 7这样的表格就叫做列联表。它给出了按照两个变量总和分类得到的每一个小类的观测个数。 为了得到这样的表格, 需要把数据输入为数据集。 有时我们得到的数据是每一个观测的变量取 值,比如,我们有每一个学生的性别(SEX)情况和来源(FROM)情况,可以输入这些原始数 据,如: input sno sex $ from $; label sex='性别' from='来源'; 1 男 本地 2 女 外地 3 男 外地 ????/* 所有学生的记录 */ ; 然后用如下的 FREQ 过程可以画出列联表: proc freq data= tables from * 结果见表格 4。 表格数据输入的另一种情况是,我们得到的数据就已经是上面表格 3 那样的调查结果而不是 具体的样本情况,可以直接把表格输入一个数据集,但数据集中要有一个代表观测数的变量, 例如: input from $ sex $ label sex='性别' from='来源'; 本地 男 4 本地 女 6 外地 男 14 外地 女 7 ;这样的数据要画列联表,需要在 FREQ 过程中使用 WEIGHT 语句指定表示重复数的变量 (NUMCELL ): proc freq data= tables from * 结果和上面得到的结果相同。 在输出结果中,我们看到 TABLES 语句中的前一个变量被用来区分行,后一个变量被用来区分 列。每个格子中有四个数:Frequency(频数,本格子的观测数),Percent(百分比),Row Pct (行百分比,表示本类在本行中占的百分比,比如本地男生有 4 个人,本行有 10 个人,占本 行的 40.00%),Col Pct(列百分比)。在表的右侧有行总计,比如本地学生有 10 个人,占 总学生数 (31 人) 的 32.26%。 在表的下侧有列总计, 比如男生有 18 个人, 占学生总数的 58.06%。 表格右下方是总数(31)和总百分比(100)。 为了作列联表,调用 FREQ 过程,使用 TABLES 语句指定行变量和列变量,两者用星号分开,如 果数据本身是表格数据还需要用 WEIGHT 语句指定存放表格单元观测数的变量。 可以作出简化的表格,在 TABLES 语句中加上 NOFREQ、NOPCT、NOROW、NOCOL 等选项就可以抑 制相应的统计量的输出。例如,用如下程序: proc freq data= tables from * sex / 就可以产生只有单元数的表格。列联表独立性检验对于数值型变量, 我们考虑其相关关系的通常的办法是计算相关系数和进行回归分析。 如果我 们要研究离散取值的名义变量和有序变量有无相关,最常用的检验办法是列联表独立性检验。 列联表检验的零假设是两变量 和 相互独立,计算一个 很大时否定零假设。 统计量,与列联表中频数取值和零假设下期望取值之差有关,当例如,为了探讨吸烟与慢性支气管炎有无关系,调查了 339 人,情况如下: 表格 5 吸烟与慢性支气管炎调查表 患慢性支气管炎 吸烟 不吸烟 43 13 未患慢性支气管炎 162 121设想有两个随机变量 X,Y:X 取 1 表示吸烟,取 2 表示不吸烟,Y 取 1 表示患慢性支气管炎, 取 2 表示未患。零假设为:: X 与 Y 相互独立 要检验此零假设,先取定检验水平 0.05,用 PROC FREQ 过程,在 TABLES 语句中加上 CHISQ 选 项即可。下面的例子中还加入了 EXPECTED 选项以显示零假设下的期望频数值: input smoke $ bron $ label smoke='吸烟' bron='慢性支气管炎'; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121 ; proc freq data= tables smoke*bron / nopct norow
结果如下: TABLE OF SMOKE BY BRON SMOKE(吸烟) BRON(慢性支气管炎)Frequency| Expected |患病 |未患 | ---------+--------+--------+ 不吸烟 | 13 | 121 | | 22.136 | 111.86 | ---------+--------+--------+ 吸烟 | 43 | 162 | | 33.864 | 171.14 | ---------+--------+--------+ Total 56 283Total 134205339STATISTICS FOR TABLE OF SMOKE BY BRON Statistic DF Value Prob -----------------------------------------------------Chi-Square 1 7.469 0.006 Likelihood Ratio Chi-Square 1 7.925 0.005 Continuity Adj. Chi-Square 1 6.674 0.010 Mantel-Haenszel Chi-Square 1 7.447 0.006 Fisher's Exact Test (Left) 4.09E-03 (Right) 0.998 (2-Tail) 6.86E-03 Phi Coefficient -0.148 Contingency Coefficient 0.147 Cramer's V Sample Size = 339-0.148列联表中列出了表格单元频数和在零假设下的期望频数, 可以看出, 吸烟人中患病的数目比期 望数目大。检验的结果只要看后面的统计量部分的 Chi-Square 一行,其值为 7.469,p 值为 0.006,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。使用检验要求每个单元格至少频数不少于 5。在条件不满足的时候还可以使用 Fisher 精确检验。对于两行两列的表格 FREQ 过程自动给出 Fisher 精确检验的结果,其双侧检验 p 值 为 0.00686,应拒绝零假设。属性变量关联度计算对于区间变量, 我们可以计算两两的相关系数。 属性变量因为没有数值概念所以不能计算相关 系数, 但对于两个有序变量我们可以计算类似于相关系数的关联性量度。 其中一种关联性量度 叫做 Kendal Tau-b 统计量,取值在-1 到 1 之间,值接近于 1 表示正关联,接近于-1 表示负 关联,接近于 0 表示没有相关关系。 下面用例子说明如何在 FREQ 过程中计算 Kendal Tau-b 统计量。本例取自《SAS 系统与基础统 计分析》一书。假设我们要研究奶牛种群大小与其患某种细菌性疾病的关系。牛的患病程度 (DISEASE)分为没有(0)、低(1)、高(2),牛群大小(HERDSIZE)分为小(1)、中(2)、 大(3)。数据如下数据步所示: input herd label herdsize='牛群大小' disease='患病程度'; 1 0 9 1 1 5 1 2 9 2 0 18 2 1 4 2 2 19 3 0 11 3 1 88 3 2 136; 用 FREQ 过程在 TABLES 语句中加上 MEASURES 选项就可以计算 Kendall Tau-b 统计量: proc freq data= tables herdsize*disease / measures expected n title '奶牛疾病数据分析'; 结果如下: HERDSIZE(牛群大小) DISEASE(患病程度)Frequency| Expected | 0| 1| 2| Total ---------+--------+--------+--------+ 1 | 9 | 5 | 9 | 23 | 2.9231 | 7.4615 | 12.615 | ---------+--------+--------+--------+ 2 | 18 | 4 | 19 | 41 | 5.2107 | 13.301 | 22.488 | ---------+--------+--------+--------+ 3 | 11 | 88 | 136 | 235 | 29.866 | 76.237 | 128.9 | ---------+--------+--------+--------+ Total 38 97 164 299 STATISTICS FOR TABLE OF HERDSIZE BY DISEASE Statistic Value ASE -----------------------------------------------------Gamma 0.411 0.101 Kendall's Tau-b 0.217 0.061 Stuart's Tau-c 0.148 0.044 Somers' D C|R Somers' D R|C Pearson Correlation Spearman Correlation Lambda Asymmetric C|R Lambda Asymmetric R|C Lambda Symmetric Uncertainty Coefficient C|R 0.276 0.171 0.282 0.233 0.000 0.109 0.035 0.099 0.078 0.048 0.066 0.066 0.000 0.079 0.026 0.026 Uncertainty Coefficient R|C Uncertainty Coefficient Symmetric Sample Size = 2990.144 0.1170.037 0.030算出的 Kendall Tau-b 统计量值为 0.217,渐近标准误差(ASE)为 0.061,用统计量值加减两 倍标准误差作为 Kendall Tau-b 的 95%置信区间,可算得(0.095,0.339)在零点左边,所以可 认为奶牛患病程度与种群大小有正的关联。 事实上, 我们从列联表中实际频数与期望频数的对 比也可以看出,小的种群患病比期望值轻,大的种群患病比期望值重,即患病程度与种群大小 有正的关联。
数据分析技术与统计软件) SAS 是美国 SAS(赛仕)软件研究所研制的一套大型集成应用软件系统, 具有比较完备的数 据存取、数据管理、数据分析和数据展现的系列功能。...绘图功能。在所有的统计软件中,SAS 有最强大的绘图工具,由 SAS/Graph 模块提供。然而,SAS/Graph 模 块的学习也是非常专业而复杂,图形的制作主要使用程序语言。SAS...统计分析方法汇总 目录 基本统计分析 ......规则: SPSS&SAS 规则: SPSS 规定:当样本含量 3 ≤N ≤5000...它的主要功能包括: 主成分的个数、名称可以由用户...实验报告3―― SAS描述统计分析_理学_高等教育_教育专区。SAS描述统计分析,习题解答实验报告 实验项目名称 所属课程名称 实验类型实验日期 SAS 描述统计分析 现代统计...统计软件教学大纲_管理学_高等教育_教育专区。统计软件 Statistical Package 课程编号...② 课程的基本要求 SAS 简介: 了解 SAS 系统的主要特点和功能;掌握 SAS 系统...并于 1976 年成立了 SAS 软件研 究所,正式推出了 SAS 软件,统计分析功能是它的重要组成部分和核心功能,至今,SAS 系统的功能已经逐渐扩展成为一个大型的集成应用...我们的统计思想和数据感觉有待加强啊 六、软件及其他 1、《SAS 软件与应用统计分析》 王吉利 张尧庭 主编 好书啊!!! 2、《SAS V8 基础教程》 汪嘉冈编 中国...SAS统计分析 58页 2下载券 第一章 基本统计分析及S... 5页 1下载券 SAS统计分析与应用(第二... 54页 1下载券 统计分析系统SAS 144页 2下载券喜欢...,对客户消费水平进行分类预测(consume_level) 混淆矩阵: 分类百分率: 8 SAS Enterprise Miner 一、综述:SAS完仝以统计理论为基础,功能强大,有完备的数据探索功能。...视窗简介 SAS 是一个庞大的系统,它由许多模块组成,每个模块分别完成不同功能。...? ? ? ELEMENTARY 按钮 提供基本的统计分析,如描述、相关、频数表 REGRESSION ...
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。}

我要回帖

更多关于 样本标准差的计算公式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信