各种统计统计学假设检验验的差别及分别在什么情况下使用，区分p-value及fdr

点击联系发帖人 时间：2016-11-22 10:49

统计假设检验例题

31人已关注
Emotion is the innate weakness of human.很正常了，起码说明你在大量学习、应用了p-value之后，开始对他产生新的认识和思考了。p-value&可以理解为结论的risk 大小，也就是根据数据得出的结果有多大的错误的risk，p-value&越小，结论错误的risk越小，即结论越可靠。p-value&越大，错误的risk 越大，即结论的可靠性差。p-value&是对已有结果的错误风险判断，与结果大小无关。目前不少医学杂志上仍然存在着关于p-value&的不规范用语，如 p小于等于0.05 则认为“significantly different”，p 小于等于0.01认为非常“significantly different” 等，将p-value&大小与实际差异大小联系起来其实是没有意义的。但是在统计学里，一般是以0.05作为假设检验的检验水准，这在当年手工计算的时代无疑是十分方便的。但到了计算机发达的今天，我们已经可以很轻松地计算出确切的&p-value&，仅以p跟0.05的对比来认为有统计学意义已经不符合潮流了。p-value&等于0.049和等于0.051有什么差别呢？无非就是0.049比0.051多了0.2% 支持结论的证据，但是少了这0.2%的证据难道就没有意义了吗？因此发表文章时不要仅仅给出 “p小于等于0.05”，最好给出确切的&p-value，这样才能说明更多的信息。很正常了，起码说明你在大量学习、应用了p-value之后，开始对他产生新的认识和思考了。p-value&可以理解为结论的risk 大小，也就是根据数据得出的结果有多大的错误的risk，p-value&越小，结论错误的risk越小，即结论越可靠。p-value&越大，错误的risk 越大，即结论的可靠性差。p-value&是对已有结果的错误风险判断，与结果大小无关。目前不少医学杂志上仍然存在着关于p-value&的不规范用语，如 p小于等于0.05 则认为“significantly different”，p 小于等于0.01认为非常“significantly different” 等，将p-value&大小与实际差异大小联系起来其实是没有意义的。但是在统计学里，一般是以0.05作为假设检验的检验水准，这在当年手工计算的时代无疑是十分方便的。但到了计算机发达的今天，我们已经可以很轻松地计算出确切的&p-value&，仅以p跟0.05的对比来认为有统计学意义已经不符合潮流了。p-value&等于0.049和等于0.051有什么差别呢？无非就是0.049比0.051多了0.2% 支持结论的证据，但是少了这0.2%的证据难道就没有意义了吗？因此发表文章时不要仅仅给出 “p小于等于0.05”，最好给出确切的&p-value，这样才能说明更多的信息。P值（P value）就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。P值（P value）就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。
后可以回答该问题
相关标签：
相关标签：
关注我们咨询服务合作法律法规京ICP备号
下载申请方APP
即刻拥有你的学业规划助手注册 | 登录
吆喝科技，AB测试云服务。
专为互联网人打造的365天成长计划，500门视频课程随便看，构建你的产品、运营知识体系。
希望通过我们的几篇文章，能够帮助你更好的了解A/B测试和置信区间，一起实现用A/B测试驱动产品优化。
P-value定义
P-value（以下简称P值），又称“显著性水平”，它是指在原假设为真的条件下，样本数据拒绝原假设事件发生的概率，可以用来评估假设检验中最关键的第一类错误的概率。
今年3月，美国统计协会（ASA）在其官网上发布了《关于统计显著性和P值的声明》，进一步阐释了P值的概念和用处：
P值可以表达的是数据与一个给定模型（也就是原假设下的模型）不匹配的程度；
P值并不能衡量某条假设为真的概率，或是数据仅由随机因素产生的概率；
科学结论、商业决策或政策制定不应该仅依赖于P值是否超过一个给定的阈值；
合理的推断过程需要完整的报告和透明度；
P值或统计显著性并不衡量影响的大小或结果的重要性；
P值就其本身而言，并不是一个非常好的对模型或假设所含证据大小的衡量。
P-value的计算——T检验
P值的计算公式取决于假设检验的具体方式，常用的假设检验方法有Z检验、T检验和卡方检验等，不同的方法有不同的适用条件和检验目标。
A/B测试中是用对照版本和试验版本两个样本的数据来对这两个总体是否存在差异进行检验，所以适合使用T检验方法中的独立双样本检验 (independent two-samples ttest)。通过T分布理论来计算相关的概率水平，也就是P-value的值。
T检验的计算公式，首先通过来公式计算出统计检验量Z值，公式中的相关组成因素就是：两个版本的各自均值、方差（标准差），以及样本的大小，从而推算出统计量的Z值是多少。
然后通过t分布（大样本情况下近似正态分布）的公式计算得出和Z值对应的P值，阴影部分的面积就是P-value的值。
P值算出来之后，我们就可以根据P值按照前面介绍的假设检验决策规则来判断这两个样本均值的差异是否显著了。
P-value中的常见错误
A．统计显著=效果显著=效果的商业价值？
这个式子的意思是：P值只代表了样本数据与原假设之间有多不一致，并不能代表你所发现的效应（或差异）的大小。
尽管研究者们在很多情况下都希望计算出零假设为真的概率或是数据由随机因素产生的概率，很可惜这两者都不是P值的事。P值只解释数据与假设之间的关系，它并不解释假设本身。即，不论P-value的值有多小，也只能告诉你两个版本间是否存在差异效果，并不能得知差异效果究竟有多大，更不能告诉我们这效果是否具有实际价值。
例如，我们通过A/B测试对一个资源耗费10倍以上的推荐算法进行优化，得到p值=0.001，说明这次的试验结果是显著的。而试验的效果，只对收入提升了万分之一。
当资源耗费增大了10倍或更多时，收入只得到了非常微小的提升，那么从整体看来这个优化带来的商业效果其实是非常不显著的。因此不能从P值来判定改动所带来的商业效果。
B.一旦P≤α，就立刻得出结论？
这是P值一种比较经典的错误使用方式：持续观察和检验p值(multiple testing) ，一旦p值小于α判定标准（即统计显著），就停止试验得出结论。事实上，这样的会导致很高的第一类错误发生率。
以Airbnb的某一个A/B测试为例，当试验开始运行后，持续每天都观察试验数据的情况和p值，并绘制出以下图表。可以发现，当试验运行到第7天时，p-value的值第一次小于α判定标准，实验结果显示显著。但是过了一段时间之后，p值并没有稳定下来，甚至一度增大到实验结果显示不显著。也就是说，单纯凭借p-value值来判定实验结果的显著与否，是不太可靠的。尤其是在试验刚开始的前7-10天之内，单纯依靠p-value值来得出版本差异的判定，出错的概率是非常大的。
以上就是关于P-value的介绍。如果在阅读的过程中，你对P值有了更加深入的了解，那就是我们在这篇文章上的最大成功。最后想说的是，P值并不是数据分析的终点，所有决策的过程都应该多个因素综合考量，而不是“一锤子买卖”。在A/B测试中，同时应用了许多其他合适可行的方法，是它们的共同作用帮助我们判断出了最优的试验版本。下一篇，我们就来讲讲A/B测试中用户最关注的部分——置信区间。
作者：吆喝科技，微信公众号（appadhoc）。
本文由 @吆喝科技原创发布于人人都是产品经理。未经许可，禁止转载。
原创不易，欢迎赞赏(*^▽^*)
收藏已收藏 | 38赞已赞 | 4
吆喝科技，AB测试云服务。
产品经理群运营交流群求职招聘群
Axure交流群
文案策划交流
关注微信公众号
6个回答18人关注
9个回答7人关注
6个回答55人关注
13个回答18人关注
9个回答32人关注
27个回答27人关注}

我爱游戏网