考虑值集,其箱线图四分位数的计算极差怎么算

您还可以使用以下方式登录
当前位置:&>&&>& > [极差]2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差_极差
[极差]2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差_极差
2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差现在,我们考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。1.极差、四分位数和四分位数极差开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差。设x1,x2,…,xN是某数值属性X上的观测的集合。该集合的极差(range)是最大值(max())与最小值(min())之差。[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=221 alt=&& src=&//1959240.jpg& width=474 border=0&[/TD][/TR][TR][TD]图2.2 某属性X的数据分布图。这里绘制的分位数是四分位数。3个四分位数把分布划分成4个相等的部分。第2个四分位数对应于中位数[/TD][/TR]假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集,如图2.2所示。这些数据点称做分位数。分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值。为简单起见,我们将称它们相等。)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0[/TD][/TR][/table]例2.10 四分位数极差。四分位数是3个值,把排序的数据集划分成4个相等的部分。例2.6的数据包含12个观测,已经按递增序排序。这样,该数据集的四分位数分别是该有序表的第3、第6和第9个值。因此,Q1=47000美元,而Q3=63000美元。于是,四分位数极差为IQR==16000美元。(注意,第6个值是中位数52000美元,尽管这个数据集因为数据值的个数为偶数有两个中位数。)2.五数概括、盒图与离群点对于描述倾斜分布,单个散布数值度量(例如,IQR)都不是很有用。看一看图2.1的对称和倾斜的数据分布。在对称分布中,中位数(和其他中心度量)把数据划分成相同大小的两半。对于倾斜分布,情况并非如此。因此,除中位数之外,还提供两个四分位数Q1和Q3更加有益。识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5×IQR处的值。因为Q1、中位数和Q3不包含数据的端点(例如尾)信息,分布形状的更完整的概括可以通过同时也提供最高和最低数据值得到。这称做五数概括。分布的五数概括(five-number summary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum,Q1,Median,Q3,Maximum写出。盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线(称做胡须)延伸到最小(Minimum)和最大(Maximum)观测值。当处理数量适中的观测值时,值得个别地绘出可能的离群点。在盒图中这样做:仅当最高和最低观测值超过四分位数不到1.5×IQR时,胡须扩展到它们。否则,胡须在出现在四分位数的1.5×IQR之内的最极端的观测值处终止,剩下的情况个别地绘出。盒图可以用来比较若干个可比较的数据集。[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=448 alt=&& src=&//1959242.jpg& width=504 border=0& [/TD][/TR][TR][TD]图2.3 在给定的时间段中AllElectronics的4个部门销售的商品单价数据的盒图[/TD][/TR]例2.11 盒图。图2.3给出在给定的时间段AllElectronics的4个部门销售的商品单价数据的盒图。对于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100美元。注意,该部门的两个边远的观测值被个别地绘出,因为它们的值175和202都超过IQR的1.5倍,这里IQR=40。盒图可以在O(nlogn)时间内计算。依赖于所要求的质量,近似盒图可以在线性或子线性时间内计算。3.方差和标准差方差与标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。50数值属性X的N个观测值x1,x2,…,xN的方差(variance)是:[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=58 alt=&& src=&//1959243.jpg& width=637 border=0&[/TD][/TR]其中,x是观测的均值,由(2.1)式定义。观测值的标准差(standard deviation)σ是方差σ2的平方根。例2.12 方差和标准差。在例2.6中,使用(2.1)式计算均值,我们得到x=58000美元。为了确定该例子数据集的方差和标准差,我们置N=12,使用(2.6)式得到:[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=55 alt=&& src=&//1959244.jpg& width=546 border=0&[I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=38 alt=&& src=&//1959245.jpg& width=300 border=0&[/TD][/TR]作为发散性的度量,标准差σ的性质是:σ度量关于均值的发散,仅当选择均值作为中心度量时使用。仅当不存在发散时,即当所有的观测值都具有相同值时,σ=0;否则,σ&0。重要的是,一个观测一般不会远离均值超过标准差的数倍。精确地说,使用不等式,可以证明最少[I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=51 alt=&& src=&//1959246.jpg& width=153 border=0& 的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。大型数据库中方差和标准差的计算是可伸缩的。
欢迎转载:
推荐:    [极差]2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差 极差_小宗师专辑:2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差现在,我们考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。1.极差、四分位数和四分位数极差开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差。设x1,x2,…,xN是某数值属性X上的观测的集合。该集合的极差(range)是最大值(max())与最小值(min())之差。[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=221 alt=&& src=&/files/uploadimg/9240.jpg& width=474 border=0&[/TD][/TR][TR][TD]图2.2 某属性X的数据分布图。这里绘制的分位数是四分位数。3个四分位数把分布划分成4个相等的部分。第2个四分位数对应于中位数[/TD][/TR]假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集,如图2.2所示。这些数据点称做分位数。分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值。为简单起见,我们将称它们相等。)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0[/TD][/TR][/table]例2.10 四分位数极差。四分位数是3个值,把排序的数据集划分成4个相等的部分。例2.6的数据包含12个观测,已经按递增序排序。这样,该数据集的四分位数分别是该有序表的第3、第6和第9个值。因此,Q1=47000美元,而Q3=63000美元。于是,四分位数极差为IQR==16000美元。(注意,第6个值是中位数52000美元,尽管这个数据集因为数据值的个数为偶数有两个中位数。)2.五数概括、盒图与离群点对于描述倾斜分布,单个散布数值度量(例如,IQR)都不是很有用。看一看图2.1的对称和倾斜的数据分布。在对称分布中,中位数(和其他中心度量)把数据划分成相同大小的两半。对于倾斜分布,情况并非如此。因此,除中位数之外,还提供两个四分位数Q1和Q3更加有益。识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5×IQR处的值。因为Q1、中位数和Q3不包含数据的端点(例如尾)信息,分布形状的更完整的概括可以通过同时也提供最高和最低数据值得到。这称做五数概括。分布的五数概括(five-number summary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum,Q1,Median,Q3,Maximum写出。盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线(称做胡须)延伸到最小(Minimum)和最大(Maximum)观测值。当处理数量适中的观测值时,值得个别地绘出可能的离群点。在盒图中这样做:仅当最高和最低观测值超过四分位数不到1.5×IQR时,胡须扩展到它们。否则,胡须在出现在四分位数的1.5×IQR之内的最极端的观测值处终止,剩下的情况个别地绘出。盒图可以用来比较若干个可比较的数据集。[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=448 alt=&& src=&/files/uploadimg/9242.jpg& width=504 border=0& [/TD][/TR][TR][TD]图2.3 在给定的时间段中AllElectronics的4个部门销售的商品单价数据的盒图[/TD][/TR]例2.11 盒图。图2.3给出在给定的时间段AllElectronics的4个部门销售的商品单价数据的盒图。对于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100美元。注意,该部门的两个边远的观测值被个别地绘出,因为它们的值175和202都超过IQR的1.5倍,这里IQR=40。盒图可以在O(nlogn)时间内计算。依赖于所要求的质量,近似盒图可以在线性或子线性时间内计算。3.方差和标准差方差与标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。50数值属性X的N个观测值x1,x2,…,xN的方差(variance)是:[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=58 alt=&& src=&/files/uploadimg/9243.jpg& width=637 border=0&[/TD][/TR]其中,x是观测的均值,由(2.1)式定义。观测值的标准差(standard deviation)σ是方差σ2的平方根。例2.12 方差和标准差。在例2.6中,使用(2.1)式计算均值,我们得到x=58000美元。为了确定该例子数据集的方差和标准差,我们置N=12,使用(2.6)式得到:[TR][TD][I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=55 alt=&& src=&/files/uploadimg/9244.jpg& width=546 border=0&[I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=38 alt=&& src=&/files/uploadimg/9245.jpg& width=300 border=0&[/TD][/TR]作为发散性的度量,标准差σ的性质是:σ度量关于均值的发散,仅当选择均值作为中心度量时使用。仅当不存在发散时,即当所有的观测值都具有相同值时,σ=0;否则,σ&0。重要的是,一个观测一般不会远离均值超过标准差的数倍。精确地说,使用不等式,可以证明最少[I]498)this.width=498;' onmousewheel = 'javascript:return big(this)' height=51 alt=&& src=&/files/uploadimg/9246.jpg& width=153 border=0& 的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。大型数据库中方差和标准差的计算是可伸缩的。提醒您本文地址:相关文章分位数 - IGod接口 - 推酷
分位数 - IGod接口
分位数(Quantile),也称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,分析其数据变量的趋势。常用的有中位数、四分位数、百分位数等。
中位数(Medians)是一个统计学的专有名词,代表一个样本、种群或概率分布中的一个数值,可以将数值集合划分为相等的两部分,即,若设连续随机变量 X 的分布函数为 F(X) ,那么满足条件 F(X)=1/2 ,称为 X 或分布 F 的中位数。中位数是用来衡量集中趋势的方法。对于一个有限的、有序的数集,位于中间位置的那个数值就是中位数,用 Me 表示。
中位数可以扩展到四分位数,即中位数再取中位数,变成四分位数。
若设连续随机变量 X 的分布函数为 F(X) ,那么满足条件 F(X)=1/4 ,称为 X 或分布 F 的四分位数。四分位数通常用箱形图(Box Plots)表示。箱形图能显示出一组数据的最大值(Maximum)、最小值(Minimum)、中位数(Q 2 )、下四分位数(Q 1 )及上四分位数(Q 3 )。
四分位描述为,将 n 个数从小到大排列
x n =(x 1 ,x 2 ,x 3 ,…,x n )
,那么 Q 1, Q 2, Q 3 的位置 L:
当计算的位置为小数时,即 n 为奇数,其四分位数将在后面示例中介绍。
箱形图是于 1977年由美国著名统计学家约翰&图基(John Tukey)发明,如下所示:
图 1 箱形图
这组数据显示出:
最小值(Minimum)为 5
下四分位数(Q 1 )为 7
中位数(Q 2 ,Median)为 8.5
上四分位数(Q 3 )为 9
最大值(Maximum)为 10
平均值为 8
四分位间距(Inter-quartile range,IQR)为 Q 3 -Q 1 =2,即 ΔQ,在区间 Q 1 -1.5ΔQ,Q 3 +1.5ΔQ 之外的值被视为应忽略(farout)。
farout:在图上不予显示,仅标注一个符号。
最大值区间: Q 3 +1.5ΔQ
最小值区间: Q 1 -1.5ΔQ
最大值与最小值产生于这个区间。区间外的值被视为 outlier 显示在图上。
mild outlier 为 3.5
extreme outlier 为 0.5
图 2 正态分布 N(0,1σ 2 ) 的箱形图和概率密度函数
不论 Q 1 ,Q 2 ,Q 3 的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部分,可以通过 Q 1 和 Q 3 比较,分析其数据变量的趋势。
某车间某月份的工人生产某产品的数量分别为 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4, 15.7) 公斤,则三个四分位数的位置分别为:
即数组第3、第6、第9个工人的某种产品产量分别为下四分位数、中位数和上四分位数为:
Q 1 = 13.8 公斤、Q 2 = 14.6 公斤、Q 3 = 15.2 公斤
某车间某月份的工人生产某产品的数量分别为 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4) 公斤,则三个四分位数的位置分别为:
即数组中的第 2.75 项、第 5.5 项、第 8.25 项分别为下四分位数、中位数和上四分位数。即:
Q1=0.25&第2项+0.75&第3项=0.25&13.5+0.75&13.8=13.73 (公斤)
Q2=0.5&第5项+0.5&第6项=0.5&14+0.5&14.6=14.3 (公斤)
Q3=0.75&第8项+0.25&第9项=0.75&15+0.25&15.2=15.05 (公斤)
若(n+1)为 4 的倍数,则确定四分数很简单;否则,若不是 4 的倍数,即小数,则四分位数是该小数的最大整数和最小整数位置上的值的平均数。
另外,权重的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于 1。
若有有序数组 x=(17, 19, 22, 24, 25, 28, 34),则四分位数:
Q 1 的位置= (n + 1) / 4 = (7 + 1) / 4 = 2
Q 3 的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6
则 Q 1 与 Q 3 分别为 19 和 28;IQR 四分位差为 Q 3 - Q 1 =28-19=9
说明 50% 的数据集中在 19~28 之间,最大差异为 9。
百分位数又称百分位分数(percentile),是一种相对地位量数,它是次数分布(Frequency Distribution,频数分布)中的一个点。把一个次数分布排序后,分为 100 个单位,百分位数就是次数分布中相对于某个特定百分点的原始分数,它表明在次数分布中特定个案百分比低于该分数。百分位数用P加下标 m(特定百分点)表示。譬如,若P 30 等于60,则其表明在该次数分布中有 30% 的个案低于 60 分。
百分位数运用在教育统计学中,如表现测验成绩时,又称 PR 值(Percentile ranks),用于描述一组数据某一百分位置的水平,多个百分位数结合应用,可全面描述一组观察值的分布特征;百分位数还可用于确定非正态分布资料的医学参考值范围。但应用百分位数时,样本含量要足够大,否则不宜取太靠近两端的百分位数。
计算公式为:
P m :第 m 百分位数;
L:P m 所在组的组实下限;
U:P m 所在组的组实上限;
f:P m 所在组的次数;
F b :小于 L 的累积次数;
F a :大于 U 的累积次数。
某省某年公务员考试考生分数分布如下表所示,预定取考分居前 15% 的考生进行面试,请划定面试分数线。
向上累积次数
向下累积次数
向上累积相对次数
由于预定取考分居前 15% 的考生进行面试,即有85%的考生分数低于划定的分数线,由此可知,分数线在 70~74 这一组中。
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致2.2 描述性数据汇总_数据库_领测软件测试网
2.2 描述性数据汇总
发表于:来源:作者:点击数:
2.2 描述性数据汇总 对于成功的数据预处理,获得数据的总体印象是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。因此,在讨论具体的数据预处理之前,我们首先介绍描述性数据汇总的基本概念。 对于许多数
2.2 描述性数据汇总
对于成功的数据预处理,获得数据的总体印象是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。因此,在讨论具体的数据预处理之前,我们首先介绍描述性数据汇总的基本概念。
对于许多数据预处理任务,用户希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。这些度量在统计学界已经广泛研究。
从数据挖掘的角度,我们需要考察如何在大型中有效地计算它们。特殊地,我们需要引进分布式度量、代数度量和整体度量的概念。知道我们处理的度量类型可能有助于我们选择它的有效实现。
2.2.1 度量数据的中心趋势
本节,我们考察度量数据中心趋势的各种方法。数据集的“中心”最常用、最有效的数值度量是(算术)均值。设x1, x2,., xN是(如某个像salary这样的属性)N个值或观测的集合。
该值集的均值是
class='fit-image' onload='script:if(this.width>498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=88 alt="" src="http://www.ltesting.net/uploads/_292.jpg" width=240 border=0>&
这对应于关系数据库系统提供的内部聚集函数average(中为avg())。
分布式度量(distributive measure)是一种可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。sum()和count()都是分布式度量,因为它们都可以用这种方法计算。其他例子包括max()和min()。代数度量(algebraic measure)是可以通过应用一个代数函数于一个或多个分布度量计算的度量。因此,average(或mean())是代数度量,因为它可以通过sum()/count() 计算。当我们计算数据立方体时,sum()和count()可以在预计算时保留。这样,导出数据立方体的average是直截了当的。
有时,集合中每个值xi与一个权值wi相关联,i = 1, ., N。权值反映对应值的显著性、重要性或出现频率。在这种情况下,我们可以计算
498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=113 alt="" src="http://www.ltesting.net/uploads/_293.jpg" width=283 border=0>&
这称为加权算术均值(weighted arithmetic mean)或加权平均(weighted average)。注意,加权平均是代数度量的又一个例子。
尽管均值是描述数据集的最有用的单个量,但不总是度量数据中心的最好方法。均值的主要问题是对于极端值(如离群值)很敏感。即使少量极端值也可能影响均值。例如,公司的平均工资可能被少数高报酬的经理的工资显著抬高。类似地,班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多。为了抵销少数极端值的影响,我们可以使用截断均值(trimmed mean)。截断均值是去掉高、低极端值得到的均值。例如,我们可以将工资的观测值排序,并在计算均值前去掉上下各2%的值。我们应当避免在两端截断的比例太大(如20%),因为这可能导致损失有价值的信息。
对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。设给定的N个不同值的数据集按数值序排序。如果N是奇数,则中位数是有序集的中间值;否则(即,如果N是偶数),中位数是中间两个值的平均值。
整体度量(holistic measure)是必须对整个数据集计算的度量。整体度量不能通过将给定数据划分成子集并合并每个子集上度量得到的值来计算。中位数是整体度量的一个例子。计算整体度量的开销比计算上述分布度量的开销大得多。
然而,我们可以容易地计算数据集中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10~20K, 20~30K等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式插值计算整个数据集的中位数的近似值:
498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=76 alt="" src="http://www.ltesting.net/uploads/_294.jpg" width=297 border=0>&
数据立方体的计算在第3、4章详细介绍。
其中,L1是中位数区间的下界,N是整个数据集的值的个数,(Σfreq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。
另一种中心趋势度量是众数。数据集的众数是集合中出现频率最高的值。可能最高频率对应多个不同值,导致多个众数。具有一个、两个或三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。
对于适度倾斜(非对称的)的单峰频率曲线,我们有下面的经验关系mean-mode = 3×(mean-median) (2-4)
这意味如果均值和中位数已知,适度倾斜的单峰频率曲线的众数容易计算。
在完全对称的数据分布单峰频率曲线中,均值、中位数和众数都是相同的中心值,如图2-2a 所示。然而,在大部分实际应用中数据不是对称的。它们可能是正倾斜的,其中众数出现在小于中位数的值上(图2-2b);或者是负倾斜的,其中众数出现在大于中位数的值上(图2-2c)。
中列数也可以用来评估数据集的中心趋势。中列数是数据集的最大和最小值的平均值。中列数是代数度量,因为它容易使用SQL的聚集函数max()和min()计算。
498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=170 alt="" src="http://www.ltesting.net/uploads/_295.jpg" width=510 border=0>&图2-2 对称与正倾斜和负倾斜数据的中位数、均值和众数
2.2.2 度量数据的离散程度
数值数据趋向于分散的程度称为数据的离差或方差。数据离中趋势的最常用度量是极差、五数概括(基于四分位数)、中间四分位数极差和标准差。盒图根据五数概括绘制,是一种识别离群点的有用工具。
1. 极差、四分位数、离群点和盒图
设x1, x2,., xN是某属性的观测值集合。该集合的极差(range)是最大值(max())与最小值(min())之差。本节的其余部分假定数据以数值递增序排列。
在数值序下,数据集合的第k个百分位数(percentile)是具有如下性质的值xi:百分之k的数据项位于或低于xi。中位数(上一节讨论过)是第50个百分位数。除中位数外,最常用的百分位数是四分位数(quartile)。第一个四分位数记作Q1,是第25个百分位数;第三个四分位数记作Q3,是第75个百分位数。四分位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为中间四分位数极差(IQR),定义为
IQR = Q3 -Q1 (2-5)
根据类似于2.2.1节中位数分析的推理,可以断言Q1和Q3是整体度量,IQR也是。
描述倾斜分布,单个分布数值度量(如IQR)不是非常有用的。倾斜分布两边的分布是不等的(图2-2)。因此,提供两个四分位数Q1和Q3以及中位数信息更丰富。一个识别可疑的离群点的常用经验是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值。
因为Q1、中位数和Q3不包含数据端点(例如尾)信息,分布形状的更完整概括可以通过提供最高和最低数据值得到。这称作五数概括。分布的五数概括(five-number summary)由中位数,四分位数Q1和Q3,最小和最大观测值组成,按以下次序写为Minimum, Q1, Median, Q3, Maximum。
分布的一种流行的可视化表示是盒图(boxplot)。盒图体现了五数概括:
. 在典型情况下,盒的端点在四分位数上使得盒的长度是中间四分位数极差IQR。. 中位数用盒内的线标记。. 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)观测值。当处理数量适中的观测值时,值得个别地绘出潜在的离群点。在盒图中这样做:仅当这些值超过四分位数不到1.5×IQR时,胡须扩展到最高和最低观测值。否则,胡须出现在四分位数的1.5×IQR之内的最极端的观测值处终止。剩下的情况个别地绘出。盒图可以用来比较若干个可比数据集。图2-3给出在给定的时间段,AllElectronics的4个分店销售的商品单价数据的盒图。对于分店1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100美元。注意,该分店的两个边远的观测值个别地绘制,因为它们的值175和202超过IQR的1.5倍,这里IQR = 40。
对于大型数据集的挖掘,盒图的有效计算,甚至是近似的盒图(基于五数概括的近似)仍然是一个具有挑战性的问题。
498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=396 alt="" src="http://www.ltesting.net/uploads/_296.jpg" width=484 border=0>&图2-3 在给定的时间段,AllElectronics的4个分店销售的商品单价的盒图
2. 方差和标准差
N个观测值x1, x2, ., xN的方差是
498)this.style.width=498;' onmousewheel = 'javascript:return big(this)' height=62 alt="" src="http://www.ltesting.net/uploads/_297.jpg" width=325 border=0>&
其中, 是观测值的均值,由式(2-1)定义。观测值的标准差σ是方差x σ2的平方根。
作为发散性的度量,标准差σ的基本性质是
. σ度量关于均值的发散,仅当选择均值作为中心度量时使用。. 仅当不存在发散时,即当所有的观测值都具有相同值时,σ = 0;否则,σ & 0。方差和标准差是代数度量,因为它们可以由分布度量计算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意划分进行计算,然后合并提供给式(2-6)。这样,方差和标准差的计算在大型数据库都是可伸缩的。
【责任编辑:铭铭 TEL:(010)8】回书目&&&上一节&&&下一节
原文转自:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)}

我要回帖

更多关于 四分位数怎么算 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信