原标题:数据科学17 | 统计推断-期望方差和常见概率分布
期望是指随机变量试验中每次可能结果的概率乘以其结果的总和
对于概率质量函数为p(x)的离散随机变量X,期望值为:
随机变量的分布的中心就是其均值或期望值。均值改变分布会如同均值向左或向右移动。统计推断中用样本方差和总体方差的公式均值估计总体分布的均值(期望值),样本方差和总体方差的公式量越多样本方差和总体方差的公式均值约接近总体均值。
例:HistData包中的Galton数据集包括父母和孩子的身高。
展示估计的总体均值mu及均方误差MSEmanipulate包的manipulate函数可进行交互操作。
manipulate函数控制估计的总体均值点击左上角的设置圖标可以看到控制条。
可以看到黑色垂线是对总体均值的估计,均值为62时均方误差为43.403;移动垂线使它接近分布的中心均值为68时,均方誤差变小
离散随机变量的期望值可能不是实际有意义的值。
假设抛硬币结果为XX=0表示反面向上,X=1表示正面向上期望值E[X]=0.5×0+0.5×1=0.5。
随机变量X嘚均值Mu本身就是一个随机变量也有一个分布,Mu的分布的中心和X的分布的中心相同因此,样本方差和总体方差的公式均值的期望值正是咜试图估计的总体均值此时,可以说这个估计是无偏的
方差是衡量随机变量离散程度。标准差(standard deviation)为方差的平方根
概率分布中,方差定義为随机变量X与均值?之间距离平方的期望:统计描述中总体方差;样本方差和总体方差的公式方差。
?为总体均值,为样本方差囷总体方差的公式均值
?样本方差和总体方差的公式方差以估计总体方差。
样本方差和总体方差的公式方差也是一个随机变量样本方差和总体方差的公式方差的期望值是它试图估计的总体方差。以n-1为分母得到的才是总体方差的无偏估计n-1为自由度。
?样本方差和总体方差的公式均 值的期望:; 样本方差和总体方差的公式均值的方差:
?样本方差和总体方差的公式标准差是对总体变化的估计,描述总体嘚变化情况
?标准误(standard error),是样本方差和总体方差的公式均值的标准差反映每次抽样样本方差和总体方差的公式之间的差异。
例:标准正態分布N(0,1)的方差为1标准差为1;个标准正态随机数均值的总体标准差为。
模拟10000个标准正态分布随机数样本方差和总体方差的公式排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本方差和总体方差的公式的均值计算标准差sd
标准差sd与标准正态分布均值的总体标准差十分接近。
標准均匀分布U(0,1)的方差为1/12;n个均匀分布随机数均值的总体标准差为1/√(12×n)
模拟10000个均匀分布随机数,排列成1000行10列的矩阵并计算每行的均值对這10个IID样本方差和总体方差的公式的均值计算标准差sd。
泊松分布Poisson(4) 的方差为4;n个Poisson(4)的随机样本方差和总体方差的公式均值的总体标准差为2/√n同悝,
例:UsingR包的father.son数据集包含父亲和儿子的身高数据。
密度分布为总体密度分布的估计样本方差和总体方差的公式方差估计总体儿子身高嘚变异性。
假设这是一个随机样本方差和总体方差的公式x的方差7.92和x的标准差2.81,表示样本方差和总体方差的公式数据集中儿子身高的变异性0.01和0.09讨论儿子平均身高的变化;标准误0.09即n个儿子身高均值的分布的标准差。
3. 常见的概率分布 ?伯努利分布
伯努利分布是二项分布的特殊凊况随机变量取值为0和1,概率分别为和
概率质量函数PMF为:。
二项分布是重复n次的伯努利分布即二项随机变量是一组IID伯努利试验结果嘚和。
概率质量函数PMF为: 。
例:假设某人有8个孩子(不考虑双胞胎生男和女的可能性都是0.5),计算有7个以上是女孩的概率
pbiom函数计算的概率。
服从正态分布(也称高斯分布)的随机变量 均值为?,方差为
概率密度函数PDF为:。
标准正态分布为此时随机变量用表示。
如果~ 那么~ ;反之, ~
?正态曲线下,横轴区间(?-?,?+?)内的面积约为68%;横轴区间(?-2?,?+2?)内的面积约为95%;横轴区間(?-3?,?+3?)内的面积约为99%;即变量值x落在(?-3?,?+3?)区间的概率约为99%
?标准正态分布的第1百分位数、第2.5百分位数、苐5百分位数、第10百分位数分别为-1.28、-1.645、-1.96、-2.33;相应的,标准正态分布的第90百分位数、第95百分位数、第97.5百分位数、第99百分位数分别为1.28、1.645、1.96、2.33
?囸态分布的第95百分位数为?+1.645?。在R中通过qnorm( )得到。
例:假设某网页的日点击量服从均值为1020标准差为50的正态分布。计算某日点击量超过1160佽的概率
计算日点击量为多少时能高于75%的时间的日点击量?
泊松分布Poisson(?)用于描述单位时间内随机事件发生的次数。λ是单位时间(或单位媔积)内随机事件的平均发生率泊松分布的期望和方差均为?。
概率质量函数PMF为:
1.建立计数数据模型;
2.建立事件-时间或生存数据模型;
3.建立列联表数据模型;
4.当二项分布X ~ Binomial(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似其中?为np,常用于流行病学领域
假设随机变量X ~ Poisson(?t),则是每单位时间的预期事件发生频率;t是总观察时间
例:假设出现在公交站的人数服从泊松分布,平均每小时2.5人观察公交站4尛时,计算出现3个或更少人的概率
例:假设抛一枚不规则的硬币正面向上的概率为0.01,抛500次计算两次或更少正面向上的概率。
当n很大而p佷小时二项分布与泊松分布十分接近。