我今天去检查幽门螺杆菌查出来正常出来的是c0000是什么个情

点击联系发帖人 时间：2018-01-22 22:15

幽门螺杆菌检查

→ 我今天检查出幽门螺杆菌阳性，要怎么办？家
我今天检查出幽门螺杆菌阳性，要怎么办？家
健康咨询描述：
我今天检查出幽门螺杆菌阳性，要怎么办？家里还有宝宝需要检查吗？
曾经的治疗情况和效果：
今天刚检查出
想得到怎样的帮助：能治好吗？需要注意什么？家里宝宝要检查吗
其他类似问题
医生回复区
松原市中医院&& 主治医师
擅长: 肛周脓肿,结肠炎,荨麻疹,直肠炎,肠炎,肛裂,肛瘘
微信扫描关注直接与我沟通已扫3775次
&&&&&&指导意见：需要抗菌治疗，使用甲硝唑阿莫西林联合用药治疗
擅长: 高血压 , 冠心病 , 糖尿病 , 胃炎 , 感冒
微信扫描关注直接与我沟通已扫7589次
&&&&&&病情分析：&&&&&&你好，幽门螺杆菌阳性说明感染了幽门螺杆菌。容易引起胃炎和胃溃疡，需要积极根治幽门螺杆菌治疗的，宝宝不需检查的&&&&&&指导意见：&&&&&&幽门螺杆菌感染的治疗建议口服雷贝拉唑，克拉霉素和阿莫西林克拉维酸钾。平时避免暴饮暴食，禁忌辛辣油腻和刺激性食物，如油炸食品、腌腊食品、辣椒、大蒜等。饮食以清淡和易消化的食物为主
擅长: 胸外科相关疾病
微信扫描关注直接与我沟通已扫5655次
&&&&&&病情分析：&&&&&&很多人的胃部都有幽门螺旋杆菌感染，幽门螺旋杆菌感染并不是很稀有的事情&&&&&&指导意见：&&&&&&目前认为幽门螺旋杆菌感染本身并不是很可怕的事情，可以不进行治疗，如果有慢性胃炎之类的情况才需要服用抑制胃酸的药物 &&&&&&以上是对“我今天检查出幽门螺杆菌阳性，要怎么办？家”这个问题的建议，希望对您有帮助，祝您健康！
擅长: 消化内科
微信扫描关注直接与我沟通已扫2051次
&&&&&&病情分析：&&&&&&你好，很荣幸为你提供医疗保健知识解答。你的情况属于幽门螺杆菌阳性，可能患有一定程度的胃炎。临床上会出现发酸，嗳气等胃部不适。&&&&&&指导意见：&&&&&&综上所述，就你的情况而言，饮食方面不能进食过于刺激，油腻性的食物。宜平淡为主；其次，药物使用方面可以尝试服用中成药益胃汤。祝你幸福安康！
擅长: 失眠症,焦虑症,抑郁症,强迫症,精神分裂症,躁狂症
微信扫描关注直接与我沟通已扫431次
&&&&&&病情分析：&&&&&&从你描述的症状来看，主要是幽门螺旋杆菌感染导致的胃炎。&&&&&&指导意见：&&&&&&这种情况下，应当及时应用克拉霉素，甲硝唑，奥美拉唑等药物综合治疗的，一般来讲7-14日一疗程，治疗期间需要忌食辛辣食物，寒凉食物。宝宝无需检查。但是日常生活要避免口对口给孩子喂食。
微信扫描关注直接与我沟通已扫4742次
&&&&&&病情分析：&&&&&&慢性胃炎的病因就是幽门螺旋杆菌而且会传染你记得除了积极治疗还要专人专碗筷还有让家人也检查一下&&&&&&指导意见：&&&&&&建议您做胃镜确定一下到底是何病变,以指导下部治疗.
辽宁医学院附属第一医院&& 医师
擅长: 中医治疗内科综合方面的调理,慢性病,哮喘,慢性胃炎
微信扫描关注直接与我沟通已扫3290次
&&&&&&病情分析：&&&&&&幽门螺杆菌，Helicobacterpylori，简称Hp。首先由巴里·马歇尔（BarryJ.Marshall）和罗宾·沃伦（J.RobinWarren）二人发现，此二人因此获得2005年的诺贝尔生理学或医学奖。幽门螺杆菌是一种单极、多鞭毛、末端钝圆、螺旋形弯曲的细菌。长2.5～4.0μm，宽0.5～1.0μm。在胃粘膜上皮细胞表面常呈典型的螺旋状或弧形。在固体培养基上生长时，除典型的形态外，有时可出现杆状或圆球状。幽门螺杆菌是微需氧菌，环境氧要求5～8%，在大气或绝对厌氧环境下不能生长&&&&&&指导意见：&&&&&&治疗方案的选择原则是：①采用联合用药方法；②幽门螺杆菌的根除率&80%，最好在90%以上；③无明显副作用，病人耐受性好；④病人经济上可承受性。判断幽门螺杆菌感染的治疗效果应根据幽门螺杆菌的根除率，而不是清除率。根除是指治疗终止后至少在一个月后，通过细菌学、病理组织学或同位素示踪方法证实无细菌生长。 &&&&&&以上是对“我今天检查出幽门螺杆菌阳性，要怎么办？家”这个问题的建议，希望对您有帮助，祝您健康！
微信扫描关注直接与我沟通已扫7055次
&&&&&&病情分析：&&&&&&幽门螺杆菌症状：1、幽门螺杆菌是引起口臭的最直接病菌之一，由于幽门螺杆菌可以在牙菌斑中生存，在口腔内发生感染后，会直接产生有臭味的碳化物，引起口臭。　　2、幽门螺杆菌感染的患者多会出现餐后嗳气、恶心、腹胀、腹部不适的胃肠疾病症状，而且这些症状随时都会出现，但是有些患者没有明显的症状，只有到医院做相对的检查才能发现。　　3、随着病情的严重，会逐渐破坏胃肠道壁，引发癌变的发生，而且，感染幽门螺杆菌患者一般都患有胃病，发生胃病的患者，多数与幽门螺杆菌有一定的关系。　　4、幽门螺杆菌症状一般感染者在检查中显示阳性，一般不会有什么症状，病毒在患者体内长期的破坏、寄生、繁殖，随着病情的发展，幽门螺杆菌会使菌群失调，引起其他一系列的症状。&&&&&&指导意见：&&&&&&医治方法：幽门螺旋杆菌阳性的治疗方案包括两大类，基本上都是常用的药，一个是铋制剂为主的方案，再就是以质子泵抑制剂为代表的一个方案。再加上两种抗菌素，最常用的是阿莫西林，再就是甲硝唑，我们常采用的方案就是这三种方案，对胃炎或者是对经济条件不是特别好的，这个方案是比较容易一些，效果能够达到80%根除。这个方案不适合的病人是青霉素过敏的，青霉素过敏的可以换四环素类的药，它对于螺杆菌的作用也是比较好，配用甲硝唑，连续一个星期就可以，如果有胃溃疡病可以加上雷尼替丁或者是法莫替丁；再就是洛塞克，青霉素过敏可以换四环素，甲硝唑可以换成克拉霉素。&&&&&&幽门螺旋杆菌饮食注意：1、养成良好的卫生习惯，饭前便后洗手，蔬菜、瓜果要洗净，尽量熟食，半生不熟的牛排等食物，最好不要吃。　　2、防止病从口入，不吃不洁食物，不吃变质食物，储存在冰箱里的食物，放置时间不要太久，以免感染细菌，另外，生食和熟食要尽量分开，避免感染病菌。　　3、幽门螺杆菌感染往往有家庭聚集性，为根除彻底和避免再感染，家人也要注意幽门螺旋杆菌的根除，并实施分餐制，尽量使用公筷，以免再度感染。　　4、食物软烂易消化，烟熏、腌制食物、冷酸辣、油炸刺激的食物，最好不要食用。&&&&&&幽门螺杆菌有可能传染到小孩，但不用紧张，如小孩无不适不建议给他检查，因为国人的饮食习惯，中国人的幽门螺杆菌感染率较高，需要治疗的少。
您可能关注的问题
用药指导/吃什么药好
本品用于湿热瘀滞所致的带下病。...
参考价格：￥28
本品用于跌打损伤，跖骨、趾骨骨折，瘀血肿痛，吐血...
参考价格：￥17.5
您好，虽然我们的工作人员都在竭尽所能的改善网站，让大家能够非常方便的使用网站，但是其中难免有所疏漏，对您造成非常不必要的麻烦。在此，有问必答网向您表示深深的歉意，如果您遇到的麻烦还没有解决，您可以通过以下方式联系我们，我们会优先特殊解决您的问题。
请选择投诉理由
涉嫌广告宣传
无意义提问
非医学类咨询
违背伦理道德
其他投诉理由
涉嫌广告宣传
无意义回复
违背伦理道德
复制粘贴内容
常识性错误
其他投诉理由
如遇紧急情况，请致电400-今天去医院检查胃专家让我坐了一个幽门螺旋杆菌测试正...
今天去医院检查胃专家让我坐了一个幽门螺旋...
病情描述（发病时间、主要症状、症状变化等）：今天去医院检查胃专家让我坐了一个幽门螺旋杆菌测试正常值是100的可是我的检测结果是1456（+）阳性想问问有没有什么大问题啊可以治愈吗
医院出诊医生
擅长：小儿内科
擅长：外科
共10条医生回复
因不能面诊，医生的建议及药品推荐仅供参考
职称：医生会员
专长：胃炎、胃溃疡
&&已帮助用户：16326
问题分析：你好根据你的检查结果说明感染了幽门螺杆菌幽门螺杆菌感染容易引起胃炎胃溃疡积极治疗是可以治愈的意见建议：治疗建议口服雷贝拉唑克拉霉素和阿莫西林克拉维酸钾平时避免暴饮暴食禁忌辛辣油腻和刺激性食物如油炸食品、腌腊食品、辣椒、大蒜等饮食以清淡和易消化的食物为主
职称：医师
专长：外科、痔疮
&&已帮助用户：1380
指导意见：你好，你的情况很严重了尤其幽门螺旋菌强阳性会造成溃疡.还会传染家人.建议及时治疗争取早日恢复.
职称：医师
专长：高血压、糖尿病、心血管疾病
&&已帮助用户：53207
问题分析：你好建议你去当地医院消化内科复查意见建议：幽门螺旋杆菌通过正规方式治疗是可以彻底治愈的你可以不用过于担心建议你确诊疾病类型再由专科医生结合实际正确应用药物治疗基本上都是常用的药一个是铋制剂为主的方案再就是以质子泵抑制剂为代表的一个方案
职称：医生会员
专长：内科,尤其擅长上呼吸道感染
&&已帮助用户：5817
问题分析：这位朋友您好幽门螺旋杆菌感染时胃及十二指肠炎症或是溃疡的常见病因意见建议：这位朋友您好根治幽门螺旋杆菌感染常用的是四联疗法即服用奥美拉唑、枸橼酸铋钾、克拉霉素、阿莫西林疗程是7到10天对于耐药者可以延长至14天但不可以超过14天两周后可以做个呼气试验看看幽门螺旋杆菌有没有转阴
职称：医生会员
专长：内科,尤其擅长上呼吸道感染
&&已帮助用户：840
指导意见：你好幽门螺杆菌是导致胃病的主要原因一般药物很难根治所以一定要正确治疗才能彻底根治西医目前没有根治的办法中医中药长期临床实践积累了许多非常有效的治疗方法建议你用传统中药黑矾黑枣核桃仁栀子当归砂仁厚朴三棱穿山甲寸曲麦芽上甲下甲红花海南沉铁胆粉蜂胶蜂蜜蜂蜡治疗可以彻底根治不复发这些传统中药配合使用可以彻底清除幽门螺杆菌快速修复胃粘膜从而达到彻底治愈的目的.希望你正确治疗早日康复
职称：医生会员
专长：自汗盗汗,便秘,胃痛
&&已帮助用户：220633
指导意见：可以口服奥美拉唑和枸橼酸铋钾颗粒进行治理，切忌使用辛辣刺激性的食物，这个时候要注意饮食的合理性，注意休息好，适当的运动，保持一个良好的心情很重要，祝健康
职称：医师
专长：儿科呼吸系统疾病、神经系统疾病、皮肤过敏疾病
&&已帮助用户：79860
指导意见：幽门螺杆菌是一种单极、多鞭毛、末端钝圆、螺旋形弯曲的细菌。hp阳性，说明感染了幽门螺杆菌，有可能会导致慢性胃炎和肠胃溃疡病。建议可以去医院做个胃镜检查，再针对性用药。
职称：护士
专长：妇产科
&&已帮助用户：87061
指导意见：你好，幽门螺旋杆菌是导致胃病的主要原因，你的情况比较严重，一定要及时正确治疗，才能早日康复，避免病情进一步发展
职称：医师
专长：胃、十二指肠溃疡,慢性糜烂性胃炎,胆汁返流性胃炎
&&已帮助用户：258527
指导意见：你好，这种情况是需要及时的治疗的。幽门螺旋杆菌感染引起胃炎或胃溃疡，建议在医生指导下服用奥美拉唑+阿莫西林胶囊+克拉霉素+得必泰颗粒治疗,一般需要服用2--4周.应注意日常饮食与保健,并注重运动和休息,调整精神状态.生活有规律,定食定量用餐,远离烟酒,保持心情舒畅,不要有过多的精神压力.
职称：医生会员
专长：高血压，肾病，肝病，皮肤病，性病，美白祛斑除皱，中...
&&已帮助用户：105384
指导意见：这样你就是有感染的情况了，所以要注意及时的做治疗的，这样治疗后，也是可以慢慢恢复的，所以积极治疗就好了。
问今天去医院做了那个吹气检测幽门螺旋菌的检查，结果为...
职称：主治医师
专长：妇产科常见疾病的诊治，如妇科炎症，先兆流产等。
&&已帮助用户：43932
问题分析：您好，现在的检查结果提示有幽门螺杆菌感染，它是慢性胃炎或者溃疡疾病常见的病因，所以目前应该积极治疗。意见建议：检查结果不严重，可以选择阿莫西林，克拉霉素，奥美拉唑药物治疗2周，养成良好的生活和饮食习惯。
问请问怎样检查幽门螺旋杆菌？
职称：医生会员
专长：胃炎治疗
&&已帮助用户：1260
病情分析：您好，1、呼气检测仪检查：这是幽门螺杆菌检测的最先进设备之一，不需插管，只须轻轻吹一口气，就能查出胃病致病“元凶”幽门螺旋杆菌（HP）的感染例。简便、快速、准确性高，无创伤、无交叉感染。
　　2、免疫学检测：通过测定血清中的幽门螺杆菌抗体来检测幽门螺杆菌感染，包括补体结合试验、凝集试验、被动血凝测定、免疫印迹技术和酶联合吸附测定等。
　　3、细菌的直接检查：通过胃镜检查钳取胃粘膜作直接涂片、染色，组织切片染色及细菌培养来检测幽门螺旋杆菌。意见建议：建议目前国内外常用的抗幽门螺杆菌药物有胃复春片、羟氨苄青霉素、甲硝唑、克拉霉素、四环素、强力霉素、呋喃唑酮、有机胶态铋剂（de-nol等）、胃得乐（胃速乐）、乐得胃、西皮氏粉和胃舒平等。溃疡病患者尚可适当结合应用质子泵抑制剂或h2受体拮抗剂加上两种抗菌素，或者质子泵抑制剂（如奥美拉唑）加上一种抗菌素。疗程一般为两个星期。由于治疗幽门螺杆菌感染抗菌方案的广泛应用，有可能扩大耐药性问题的产生。因此，将来替换性的治疗或预防策略，如疫苗预防或免疫治疗的研究是值得重视的。
问2个星期前体检验血出来有幽门螺杆菌，后来到医院呼气检...
职称：医生会员
专长：中医科相关疾病
&&已帮助用户：3208
病情分析：综合分析，两次结果不一样，考虑存在误差。意见建议：建议复诊一下，方便下一步的诊治，建议规律饮食。
问查幽门螺杆菌用的C13和C14有什么区别
职称：医生会员
专长：内科,
&&已帮助用户：60159
问题分析：您好，二者都是如今检测幽门螺杆菌所常用且较为敏感的测试。C14有一定的放射性，服用同位素后在人体不会被衰退，虽然对人体的损害没有明确报道，但它不适于孕妇、儿童。意见建议：而13Ｃ呼气试验没有放射性，由于是稳定性核素，对人体无损害，敏感性和特异性较高。
问我怀疑我有幽门螺旋杆菌，应该去医院挂什么科。
职称：医师
专长：高血压、心脑血管病
&&已帮助用户：355977
指导意见：幽门罗杆菌感染会引起溃疡的。多是会因为溃疡引起胃部疼痛不适的。可以及时注意检查早期治疗的。
建议你可以及时就医，在医师指导下可以及时做胃镜，可以检查胃部情况，也可以当时检查幽门罗杆菌的。及时治疗，平时注意饮食容易消化。
问幽门螺杆菌反复复发,该如何彻底根治
职称：医生会员
专长：高血压、糖尿病、心血管疾病
&&已帮助用户：62964
病情分析：胃穿孔术后可以造成幽门管狭窄,一是等待自行修复,二是再次手术解决。平时不能过饱并积极治疗幽门螺旋杆菌感染
意见建议：
关注此问题的人还看了
大家都在搜：
关注健康生活！
社会发展节奏快，生存压力大，很多人不能良好调节自我心理，导致.
长期持续这种不良的作息习惯，会给身体造成很大负担，通常晚睡会使
造成这种现象的原因很多，也是男性高发病症，一般分为假性和真性两
百度联盟推广
幽门螺旋杆菌相关标签
免费向百万名医生提问
填写症状描述信息，如：小孩头不发烧，手脚冰凉，是怎么回事？
无需注册，10分钟内回答
搜狗联盟推广
百度联盟推广
评价成功！当前位置： >>
stata中文教程
Stata 软件基本操作和数据分析入门第一讲 Stata 操作入门张文彤赵耐青第一节概况Stata 最初由美国计算机资源中心（Computer Resource Center）研制，现在为 Stata 公司的产品，其最新版本为 7.0 版。它操作灵活、简单、易学易用，是一个非常有特色的统计分析软件，现在已越来越受到人们的重视和欢迎，并且和 SAS、SPSS 一起，被称为新的三大权威统计软件。 Stata 最为突出的特点是短小精悍、功能强大，其最新的 7.0 版整个系统只有 10M 左右，但已经包含了全部的统计分析、数据管理和绘图等功能，尤其是他的统计分析功能极为全面，比起 1G 以上大小的 SAS 系统也毫不逊色。另外，由于 Stata 在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此运算速度极快。由于 Stata 的用户群始终定位于专业统计分析人员，因此他的操作方式也别具一格，在 Windows 席卷天下的时代，他一直坚持使用命令行／程序操作方式，拒不推出菜单操作系统。但是，Stata 的命令语句极为简洁明快，而且在统计分析命令的设置上又非常有条理，它将相同类型的统计模型均归在同一个命令族下，而不同命令族又可以使用相同功能的选项，这使得用户学习时极易上手。更为令人叹服的是，Stata 语句在简洁的同时又拥有着极高的灵活性，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。除了操作方式简洁外， Stata 的用户接口在其他方面也做得非常简洁，数据格式简单，分析结果输出简洁明快，易于阅读，这一切都使得 Stata 成为非常适合于进行统计教学的统计软件。 Stata 的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件（ADO 文件），这些文件可以自行修改、添加和下载。用户可随时到 Stata 网站寻找并下载最新的升级文件。事实上，Stata 的这一特点使得他始终处于统计分析方法发展的最前沿，用户几乎总是能很快找到最新统计算法的 Stata 程序版本，而这也使得 Stata 自身成了几大统计软件中升级最多、最频繁的一个。由于以上特点，Stata 已经在科研、教育领域得到了广泛应用， WHO 的研究人员现在也把 Stata 作为主要的统计分析工作软件。第二节 Stata 操作入门一、Stata 的界面图 1 即为 Stata 7.0 启动后的界面，除了 Windows 版本的软件都有的菜单栏、工具栏，状态栏等外，Stata 的界面主要是由四个窗口构成，分述如下： 1．结果窗口：位于界面右上部，软件运行中的所有信息，如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本，如白色表示命令，红色表示错误信息。 2．命令窗口：位于结果窗口下方，相当于 DOS 软件中的命令行，此处用于键入需要执行的命令，回车后即开始执行，相应的结果则会在结果窗口中显示出来。3．命令回顾窗口：即 review 窗口，位于界面左上方，所有执行过的命令会依次在该窗口中列出，单击后命令即被自动拷贝到命令窗口中；如果需要重复执行，用鼠标双击相应的命令即可。 4．变量名窗口：位于界面左下方，列出当前数据及中的所有变量名称，。除以上四个默认打开的窗口外，在 Stata 中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log 窗口等，如果需要使用，可以用 Window 或 Help 菜单将其打开。命令回顾窗口变量名窗口结果窗命令窗口图1Stata 7.0 启动后的界面二、数据的录入与储存 Stata 为用户提供了简捷，但是非常完善的数据接口，熟悉它的用法是使用 Stata 的第一步，在 Stata 中读入数据可以有三种方式：直接从键盘输入、打开已有数据文件和拷贝、粘贴方式交互数据。 1)从键盘输入数据在 Stata 中可以使用命令行方式直接建立数据集，首先使用 input 命令制定相应的变量名称，然后一次录入数据，最后使用 end 语句表明数据录入结束。例1 在某实验中得到如下数据，请在 Stata 中建立数据集。观测数据 X 1 3 4 5 6 7 8 9 10Y 2解：此处需要建立两个变量 X、Y，分别录入相应数值，Stata 中的操作如下，其中划线部分为操作者输入部分。 . drop _all . input x y x y 1. 1 2 2. 3 4 3. 5 6 4. 7 8 5. 9 10 6. end2)用 stata 的数据编辑工具 ①进入数据编辑器进入 stata 界面，在命令栏键入 edit 或在 stata 的 window 下 (注意：是浏览拉菜单中单击 data editor 或点击编辑图标图标，点击后只能浏览，不能编辑 ) 即可进入 stata 数据编辑器。（stata 界面如下图 2）图2 ②数据编辑 stata 数据编辑器界面：此时进入了数据全屏幕编辑状态。图3 在第一列输入数据后， Stata 第一列自动命名为 var1；在第二列输入数据后，第二列自动命名为 var2……依次类推。在输入数据后，双击纵格顶端的变量名栏(如：Var1 或 Var2 处)，可以更改变量名，并可以在 label 栏中注释变量名的含义,点击 OK 确认（如图 4 所示）。仍沿用上例，双击观察值所在列顶端的变量名栏，更改变量名为 x，并在 label 栏中注明 “7 岁男童身高（cm）”。点击此处可以改变量名图4 数据输入完毕后，单击 preserve 键确认所输数据，按关闭键可退出编辑器。即图5 数据输入完毕后，单击 preserve 键确认所输数据，按关闭键即可退出编辑器。 3)拷贝、粘贴方式交互数据 Stata 的数据编辑窗口是一个简单的电子表格，可以使用拷贝、粘贴方式直接和 EXCEL 等软件交互数据，在数据量不大时，这种方式操作极为方便。例2 现在 EXCEL 中已录入了三个变量，共五条记录，格式见下图，请将数据读入 Stata。解：首先将 EXCEL 中的 A1～C6 全部 18 个单元格选中，选择菜单编辑?复制，将数据拷贝到剪贴板上；然后切换到 Stata，选择菜单 Window?Data Editor，打开数据编辑窗口；再选择 Edit?Paste，相应的数据就会被直接粘贴如数据编辑窗口中，并且变量名、记录数、变量格式等均会被自动正确设置，见图 6 和图 7。图6在 EXCEL 中的数据格式图7粘贴入 Stata 后的数据格式4)、打开已有的数据文件 Stata 能够直接打开的数据文件只能是自身专用格式或者以符号分隔的纯文本格式，后者第一行可以是变量名，分述如下： 1．点击图标，然后选择路径和文件名，可以打开 Stata 专用格式的数据文件，并且扩展名为.dta。 2.打开 Dta 数据文件：该格式文件是 Stata 的专用格式数据文件，也使用 use 命令即可打开，例如要打开数据文件“C:\data1.dta” ，则命令为： . use c:\data1 即扩展名可以省略，如果 Stata 中已经修改或者建立了数据集，则需要使用 clear 选项清除原有数据，命令为： . use c:\data1 , clear 3．读入文本格式数据：需要使用 insheet 命令实现，例如需要读入已建立好的文本格式数据文件“C:\data1.txt” ，则命令为： . insheet using c:\data1.txt 该命令会自动识别第一行是否为变量名，以及变量列间的分隔符是 tab、逗号还是其他字符。如果 Stata 中已经修改或者建立了数据集，则需要使用 clear 选项清除原有数据，命令为： . insheet using c:\data1.txt , clear 5)数据文件的保存为了方便以后重复使用，输入 Stata 的数据应存盘。Stata 实际上只能将数据存为自身专用的数据格式或者纯文本格式，分述如下： 1．点击图标，然后选择路径和文件名，点击保存。2.存为 dta 格式：可以直接使用文件菜单，也可以使用 save 命令操作，如欲将上面建立的数据文件存入“ C:\ ”中，文件名为 Data1.dta，则命令为： . save c:\data1 file c:\data1.dta saved 该指令将在 C 盘根目录建立一个名为“data1.dta”的 Stata 数据文件，后缀 dta 可以在命令中省略，会被自动添加。该文件只能在 Stata 中用 use 命令打开。如所指定的文件已经存在，则该命令将给出如下信息：file c:\data1.dta already exists，告诉用户在该目标盘及子目录中已有相同的文件名存在。如欲覆盖已有文件，则加选择项 replace。命令及结果如下： . save c:\data1.dta , replace file c:\data1.dta saved 2．存为文本格式：需要使用 outsheet 命令实现，该命令的基本格式如下。 outsheet [变量名列表] using 文件名 [, nonames replace ]其中变量名列表如果省略，则将全部变量存入指定文件。如欲将上面建立的数据文件存入文本文件“C:\data1.txt”中，则命令为： . outsheet using c:\data1.txt 此时建立的文件 data1.txt 第一行为变量名，第 2～6 行为变量值。变量列间用 Tab 键分隔。如果不希望在第一行存储变量名，则可以使用 nonames 选项。如果文件已经存在，则需要使用 replace 选项。Stata 软件基本操作和数据分析入门第二讲统计描述入门赵耐青一、调查某市 1998 年 110 名 19 岁男性青年的身高（cm）资料如下，计算均数、标准差、中位数、百分位数和频数表。 173.1 169.2 171.9 166.9 181.2 177.9 179.6 169.5 176.3 178.3 174.8 167.8 174.7 173.9 185.4 177.3 168.7 173.3 175.2 176.6 183.6 171.1 175.8 177.3 176.9 175.8 175.2 175.0 177.5 178.5 174.3 170.3 172.9 181.0 178.5 173.8 173.5 179.8 183.7 173.0 177.6 168.7 178.8 177.0 177.6 179.3 171.5 175.9 175.7 171.6 174.3 183.3 175.2 181.1 179.8 177.4 177.0 x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 173.1 169.2 171.9 166.9 181.2 177.9 179.6 169.5 176.3 178.3 174.8 167.8 174.7 166 170.8 178.1 170.7 180.6 177 169.4 165 175.1 175.9 180.8 172.9 174.5 173.1 179.5 182.9 178.2 178.7 175.8 175.2 173.2 171.4 173.6 172.5 170.9 172.5 177.8 174.4 175.1 181.8 176.7 174.8 178.9 177.7 171.3 180.5 173.0 164.1 169.2 181.8 177.5 174.5 177.2 172.6 172.4 174.0 176.8 174.2 169.1 176.4 171.3 180.2166.0170.8 178.1 170.7 180.6 177.0 169.4 165.0 181.7Stata 数据结构22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63181.7 173.9 185.4 177.3 168.7 173.3 175.2 176.6 183.6 171.1 175.8 177.3 176.9 175.8 175.2 175 177.5 178.5 174.3 170.3 172.9 181 178.5 173.8 173.5 179.8 183.7 173 177.6 168.7 178.8 177 177.6 179.3 171.5 175.9 175.7 171.6 174.3 183.3 175.2 181.164 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105179.8 177.4 177 175.1 175.9 180.8 172.9 174.5 173.1 179.5 182.9 178.2 178.7 175.8 175.2 173.2 171.4 173.6 172.5 170.9 172.5 177.8 174.4 175.1 181.8 176.7 174.8 178.9 177.7 171.3 180.5 173 164.1 169.2 181.8 177.5 174.5 177.2 172.6 172.4 174 176.8106 107 108 109174.2 169.1 176.4 171.3110 180.2 (读者可以把数据直接粘贴到 Stata 的 Edit 窗口) 在介绍统计分析命令之前，先介绍打开一个保存统计分析结果的文件操作：点击 log 图标，然后选择路径和输入保存结果的文件名，建议选择扩展名为 log 的文件，这样以后统计分析结果都将保存在这个文件中并且可以用 word 打开和编辑。当分析结束时，仍点击该图标，关闭文件。计算样本的均数、标准差、最大值和最小值命令 1：su 变量名 (可以多个变量：即：su 变量名 1 变量名 2 … 变量名 m) 命令 2：su 变量名,d (可以多个变量:即：su 变量名 1 变量名 2 … 变量名 m,d) 本例命令 su x变量样本量均数标准差最小值最大值Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------x | 110 175.297 164.1 185.4 本例命令. su x,d x ------------------------------------------------------------Percentiles Smallest 1% 165 164.1 5% 168.7 165 10% 169.45 166 Obs 110 25% 172.9 166.9 Sum of Wgt. 110 50% 75% 90% 95% 99% Smallest 164.1 165 166 166.9 Largest 183.3 175.2 178.1 180.9 181.8 183.7 最小值第 1 最小值第 2 最小值第 3 最小值第 4 最小值最大值第 4 最大值 Largest 183.3 183.6 183.7 185.4 Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Mean Std. Dev. Variance Skewness Kurtosis 结果说明 110 110 175.297 17.82779 -.1756947 样本量加权和(即每个记录的权是 1)175.297 17.82779 -..895843均数标准差方差偏度系数183.6 183.7 185.4第 3 最大值第 2 最大值第 1 最大值Percentiles 165 168.7 169.45 172.9 175.2 百分位数 =P1 =P5 =P10 =P25 =P50Kurtosis2.895843峰度系数1% 5% 10% 25% 50%75% 178.1 =P75 90% 180.9 =P90 95% 181.8 =P95 99% 183.7 =P99 计算百分位数还可以用专用命令 centile。 centile 变量名(可以多个变量)，centile(要计算的百分位数) 例如计算P2.5，P97.5等 centile 变量名,centile(2.5 97.5) 本例计算P2.5，P97.5，P50，P25，P75。本例命令. centile x,centile(2.5 25 50 75 97.5)百分位数PX表示样本中X%的数据小于等PX并且(100 －X)%的数据大于等于PX。特别： P50就是中位数，表示一半的数据小于等于它，另一半的数据大于等于它。本例：P50=175.2 样本量 obs=110，因此有 55 个数据小于等于 175.2，另有 55 个数据大于等于 175.2-- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------x | 110 2.5 165.775 164.1 168.7* | 25 172.825 171.7 | 50 175.2 174.5 176.6789 | 75 178.125 177.3 179.4371 | 97.5 183. 185.4* * Lower (upper) confidence limit held at minimum (maximum) of sample 结果说明Percentile 2.5 25 50 75 97.5Centile 165.775 172.825 175.2 178.125 183.6225百分位数 =P2.5 =P25 =P50(中位数) =P75 =P97.5制作频数表，组距为 2，从 164 开始， gen f=int((x-164)/2)*2+164 其中 int( )表示取整数 tab f 频数汇总和频率计算频数频率累积频率 f | Freq. Percent Cum. ------------+----------------------------------164 | 2 1.82 1.82 166 | 3 2.73 4.55 168 | 7 6.36 10.91 170 | 11 10.00 20.91 172 | 16 14.55 35.45174 | 23 20.91 56.36 176 | 20 18.18 74.55 178 | 13 11.82 86.36 180 | 10 9.09 95.45 182 | 4 3.64 99.09 184 | 1 0.91 100.00 ------------+----------------------------------Total | 110 100.00 作频数图命令 graph 变量,bin(#) norm 其中#表示频数图的组数;norm 表示画一条相应的正态曲线(可以不要) 本例命令为 graph x,bin(8) norm.254545Fraction0 164.1 x 185.4为了使坐标更清楚地在图上显示，可以输入下列命令 graph x,bin(8) xlabel norm ylabel.3.2 Fraction.10 165 170 175 x 180 185图形可以从 Stata 中复制到 word 中来，操作如下：点击 Edit 后，再点击 Copy Graph然后到 Word 中粘贴和编辑，便可以得到所需要的图形。点击此处便可关闭图形窗口，返回结果窗口计算几何均数可以用 means 变量名(可以多个变量：即:means means x变量 1 …变量 m)Variable | Type Obs Mean [95% Conf. Interval] -------------+--------------------------------------------------------x | Arithmetic 110 175.6 176.1634 | Geometric 110 175.8 176.1166 | Harmonic 110 175.7 176.07 ----------------------------------------------------------------------Arithmetic(算术均数) Geometric(几何均数) 调和均数(Harmonic)作 Pie 图描述构成比：每一类的频数用一个变量表示，命令： graph 各类频数变量名,pie例：下列有 2 个地区的血型频数分布数据，请用 Pie 描述：频数地区第 1 地区 area=1 第 2 地区 area=2 Stata 数据格式 A 100 80 B 120 70 O 240 200 AB 75 501 2a 100 80b 120 70o 240 200ab 75 50area 1 2第 1 地区血型构成比的 Pie 图的命令和图 graph a b o ab if area==1,pie19% A 22% B 45% O 14% AB注意逻辑表达式中 if area==1 是两个等号。第 2 地区血型构成比的 Pie 图的命令和图 graph a b o ab if area==2,pie20% A 18% B 50% O 13% AB两个地区合并后的血型构成比的 Pie 图的命令和图19% A 20% B 47% O 13% AB正态性检验. swilk 变量名 1 变量名 2 … 变量名 m 在上例中的 110 名 19 岁男性青年的身高资料正态性检验如下： . swilk x Shapiro-Wilk W test for normal data Variable | Obs W V z Prob&z -------------+------------------------------------------------x | 110 0. -1.797 0.96381 无效假设H0：资料服从正态分布备选假设H1：资料不服从正态分布设α=0.05 (样本比较大时，α取 0.05，样本很小时，α取 0.1)Prob&z .96381 因此可以认为资料近似服从正态分布。P值 =P 值&0.05计量资料统计描述的主要策略。若资料近似正态分布，则用均数±标准差描述若资料偏态分布(频数图明显不对称)，则用中位数(P25DDP75)描述 P25DDP75称为四分位数范围(Inter-quartile range,IQR) 但在一些临床试验资料统计分析时，往往给出样本均数、标准差、中位数、四分位数范围、最小值和最大值，但对结果的主要解释按照上述策略进行进行。Stata 软件基本操作和数据分析入门第三讲概率分布和抽样分布赵耐青概率分布累积函数 1. 标准正态分布累积函数 norm(X) 2. t 分布右侧累积函数 ttail(df，X) ，其中 df 是自由度 3. χ2分布累积函数chi2(df，X) ，其中df是自由度 4. χ2分布右侧累积函数chi2tail(df，X) ，其中df是自由度 5. F 分布累积函数 F(df1，df2，X)，df1 为分子自由度，df2 为分母自由度 6. F 分布右侧累积函数 F(df1，df2，X)，df1 为分子自由度，df2 为分母自由度累积函数的计算使用正态分布计算 X 服从 N(0,1)，计算概率 P(X&1.96) . display norm(1.96) .9750021 即概率 P(X&1.96)＝0.9750021 norm(1.96)，同样可以得到上述结果。display 可简写为 di，如： diX 服从 N(0,1)，计算概率 P(X&1.96)，则 . di 1- norm(1.96) 即概率 P(X&1.96)＝0.0249979X ?μ.0249979X服从N(μ,σ2)，则 Y =σ~ N (0,1) ，因此对其他正态分布只要在函数括号中插入一个上述表达式就可以得到相应概率。例如：X服从N(100,62)，计算概率P(X&111.76)，则操作如下 . di norm((111.76-100)/6) 即：概率 P(X&111.76)=0.9750021.9750021又如X服从N(100,62)，计算概率P(X&90)，操作如下 . di 1-norm((90-100)/6) . χ2分布累积概率计算设X服从自由度为 1 的χ2分布，计算概率P(X&3.84)，则操作如下 . di 1-chi2(1,3.84) 概率 P(X&3.84)=0..设X服从自由度为 3 的χ2分布，计算概率P(X&5)，则操作如下 . di chi2(3,5) 概率 P(X&5)=0..χ2分布右侧累积概率计算设X服从自由度为 1 的χ2分布，计算概率P(X&3.84)，则操作如下 . di chi2tail(1,3.84) . 概率 P(X&3.84)=0.设X服从自由度为 3 的χ2分布，计算概率P(X&5)，则操作如下 .di chi2(3,5) 概率 P(X&5)=0..t 分布右侧累积概率计算设 t 服从自由度为 10 的 t 分布，计算概率 P(t&2.2)，操作如下 . di ttail(10,2.2) . 概率 P(t&2.2)=0. (注意：这是右累积函数)设 t 服从自由度为 10 的 t 分布，计算概率 P(t&－2)，操作如下 . di 1-ttail(10,-2) . 概率 P(t&－2)=0.F 分布累积概率计算设 F 服从 F(3,27)，计算概率 P(F&1)，操作如下： . di F(3,27,1) .注意这里的函数是大写 F，stata 软件中是区分大小写的概率 P(F&1)=0.设 F 服从 F(4,40)，计算概率 P(F&3)，操作如下： . di 1-F(4,40,3) 概率 P(F&3)=0 ..F 分布右侧累积概率计算设 F 服从 F(3,27)，计算概率 P(F&1)，操作如下： . di 1-Ftail(3,27,1)注意这里的函数是大写 F，stata 软件中是区分大小写的.概率 P(F&1)=0.设 F 服从 F(4,40)，计算概率 P(F&3)，操作如下： . di Ftail(4,40,3).概率 P(F&3)=0 .概率分布的临界值计算正态分布的临界值计算函数 invnorm(P) 例如：双侧U0.05(即：左侧累积概率为 0.975)，操作如下 . di invnorm(0.975) 1.959964 即U0.05＝1.959964t 分布的临界值计算函数 invchi2tail(df,P) 例如计算自由度为 28 的右侧累积概率为 0.025 的临界值t28，α，操作如下 . di invttail(28,0.025) 2.0484071 临界值t28，α=2.0484071χ2分布的临界值计算函数invchi2(df,P) 或invchi2tail(df,P) 例如：计算自由度为 1 的χ2右侧累积概率为 0.05 的临界值χ20.05，操作如下： . di invchi2(1,0.95) 3.8414591 或者操作如下： . di invchi2tail(1,0.05) 临界值χ20.05=3.84145913.8414591临界值χ20.05=3.8414591F 分布的临界值计算函数 invF(df1,df2,P) 或 invF(df1,df2,P) 例如计算分子自由度为 3 和分母自由度 27 的右侧累积概率为 0.05 的临界值，操作如下： . di invF(3,27,0.95) 2.9603513 或者操作为： . di invFtail(3,27,0.05) 2.9603513 临界值F0.05(3,27)= 2.9603513 临界值F0.05(3,27)= 2.9603513产生随机数计算机所产生的随机数是通过一串很长的序列数模拟随机数，故称为伪随机数，在实际应用这些随机数时，这些随机数一般都能具有真实随机数的所有概率性质和统计性质，因此可以产生许许多多的序列伪随机数，一个序列的第一个随机数对应一个数，这个数称为种子数(seed)，因此可以利用种子数，使随机数重复实现。设置种子数的命令为 set seed 的随机序列是相同的。产生(0,1)区间上的均匀分布的随机数 uniform() 例如产生种子数为 100 的 20 个在(0,1)区间上的均匀分布的随机数，则操作如下： clear 清除内存数。每次设置同一种子数，则产生set seed 100 set obs 20 gen r=uniform() list 结果如下 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. r .41 .61 .3 .95 .69 .68 .7132设置种子数为 100 设置样本量为 20 产生 20 个在(0，1)区间上均匀分布的随机数。显示这些随机数利用均匀分布随机数进行随机分组：例：某实验要把 20 只大鼠随机分为 2 组，每组 10 只，请制定随机分组方案和措施。第一步、把 20 只大鼠编号，1，2，3，4，5，6，7，8，9，10， 11，12，13，14，15，16，17，18，19，20。并且标明。第二步、用 Stata 软件制定随机分组方案，操作如下：clear set seed 200 set obs 20 range no 1 20 gen r=uniform() gen group=1 sort r replace group=2 in 11/20清除内存设置种子数为 200 设置样本量为 20 建立编号 1 至 20 产生在(0,1)均匀分布的随机数设置分组变量 group 的初始值为 1 对随机数从小到大排序设置最大的 10 个随机数所对应的记录为第 2 组，即：最小的 10 个随机数所对应的记录为第 1 组sort listno按照编号排序显示随机分组的结果结果如下：1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 r .46 .69 .43 .26 .93 .0 .67524 group 2 2 1 1 2 2 1 2 1 2 1 1 2 2 1 2 1 1 2 1随机分组整理如下第一组编号 3 4 7 9 11 12 15 17 18 20第二组编号 1 2 5 6 8 10 13 14 16 19产生服从正态分布 N(μ， σ2)的随机数 invnorm(uniform())*σ+μ 。例如产生 10 个服从正态分布N(100，62)的随机数，操作如下: clear set seed 200 set obs 10 gen x=invnorm(uniform())*6+100 list 结果如下：1. 2. 3. 4. 5. 6. 7. 8. 9. 10. x 109.1 100.68 101. 96.9 92.37清除内存设置种子数为 200 设置样本量为 10 产生服从N(100，62)的随机数显示随机数教学应用：考察样本均数的分布。由于个体变异的原因，样本均数 X 的抽样误差(其定义为样本均数与总体均数的差值)是不可避免的，并且样本均数的抽样误差是呈随机变化的。对于一次抽样而言，无法考察样本均数的抽样误差的规律性，但当大量地重复抽样，计算每次抽样的样本均数 X ，考察样本均数 X 的随机分布规律性和统计特征。举例如下：样利用计算机模拟产生 100000 个服从正态分布N(100,62)的样本，本量分别为n=4，n=9，n=16，n=36，每个样本计算样本均数。这里关键处是要清楚什么是样本量(每次抽样所观察的对象个数，也就是每个样本的个体数n)、什么是样本个数(指抽样的次数)，现以n=4 为例，一条记录存放一个样本，样本量n=4，也就是每个样本的第 1 个数据放在第 1 列，第 2 个数据放在第 2 列，第 3 个数据放在第 3 列，第 4 个数据放在第 4 列，因此第 1 行是第一个样本，第 2 行是第 2 个样本，第 100000 行是第 100000 个样本，计算样本均数放在第 5 列，因此共有 100000 个样本均数。具体操作如下： clear set memory 60m清除内存扩大虚拟内存为 60M 设置记录数为 100000 设置种子数为 200 产生第 1 个随机数据产生第 2 个随机数据产生第 3 个随机数据产生第 4 个随机数据计算平均数，并且存放在变量名为 meanset obs 100000 set seed 200 gen x1=invnorm(uniform())*6+100 gen x2=invnorm(uniform())*6+100 gen x3=invnorm(uniform())*6+100 gen x4=invnorm(uniform())*6+100 gen mean=(x1+x2+x3+x4)/4su mean结果以样本均数为数据，计算其平均值和标准差Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------mean | .225 87.61现共有 100000 个样本，每个样本计算一个样本均数，因此有 100000 个样本均数，现在把一个样本均数 X 视为一个数据，把 100000 个样本均数视为一个样本量为 100000 的新样本(这个样本里有 100000 个X )，计算这 100000 个 X 的平均值和标准差：得到：这 100000 个 X 的平均值＝99.98388 非常接近总体均数μ=100 这 100000 个 X 的标准差＝3.002225 ≈σn = 6 = 3 (理论上可以证明样 4本均数的总体均数与样本所在的总体的总体均数相同，样本均数的标准差=样本所在总体的总体标准差 ) n再考察这 100000 个 X 的频数图 graph mean,bin(50) xlabel ylabel norm.06.04 Fraction.020 90 100 mean 110可以发现正态分布的样本均数仍呈正态分布，峰的位置在μ＝100。再考察这 100000 个 X 的百分位数-- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------mean | .5 94.34 94.15675 | 5 95.58 95.08677 | 50 99.68 100.0002 | 95 104.1 104.9571 | 97.5 105.1 105.9181比较理论上的百分位数百分位数P2.5 P5 P50 P95 P97.5Stata 操作 di 100+invnorm(0.025)*3 di 100+invnorm(0.05)*3 di 100+invnorm(0.5)*3 di 100+invnorm(0.95)*3 di 100+invnorm(0.975)*3理论百分位数 94.. 104.989模拟百分位数 94.31 99.48 105.8656可以发现理论上的百分位数与模拟数据的百分位数非常接近。可以证明：样本量越大，这种 X 的误差小的可能性越大。由于在实际研究中，只有一个样本，因此只有一个样本均数，无法如模拟数据一样计算样本均数的标准差，但是一个样本的数据可以计算样本的标准差 S 近似σ，利用样本均数的标准差 σ X = 估计得到样本均数的标准差估计为 S X = 和样本均数的标准差，故称 S X =σn关系，间接S ，为了区分样本的标准差 nS 为标准误。 n为了帮助大家方便地进行模拟实习，特地编制的相应的 stata 模拟程序:模拟正态分布的样本均数分布的模拟程序 simumean.ado 复制到 stata 软件安装的目录下的子目录 ado\base。例如：stata 软件安装在 D:\stata，则 simumean.ado 复制到 d:\stata\ado\base 然后启动 stata 软件后，输入连接命令:net set ado d:\stata\ado\base 若 stata 安装在其他目录下，则相应改变上述路径便是(这是一次性操作，以后无需再重复进行)。这是模拟抽 10000 个正态分布的样本，具体说明如下：举例说明 simumean 样本量均数标准差例如模拟抽 10000 个正态分布的样本，样本量为 4、总体均数是 20、标准差为 6，则操作如下： simumean 4 20 6得到下列结果(随机的)Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------mean | 52 2...40937 ssd | 469 2.34即 10000 个样本均数(视为一个新的样本数据)的平均值为 19.99352≈总体均数 20，10000 变量个样本均数的标准差＝2.990616 ≈％百分位数6 总体标准差 = = 3。 4 n样本量-- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------mean |
14.92 14.31436 | 5 15.81 15.2017 | 50 19.63 20.03251 | 95 24.68 25.05202 | 97.5 25.92 26.05995 理论上，样本均数 X 的 95%范围是μ±1.96σn＝20±1.96×3=(14.12,25.88)比较 10000 个样本均数的 95％百分位数=(14.196,25.927) 模拟习题 1)运行正态分布的样本均数模拟程序 simumean.ado，考察不同样本量情况下， X 的标准差与样本量 n 总体均数μ 总体标准差σσn的差异，95％范围的比较。9 100 616 100 625 100 636 100 649 100 6X 的标准差 σ n σ μ±1.96 nP2.5－P97.5考察频数图的变化 graph 变量名,xlabel bin(40) 考察原始资料：graph x1,xlabel bin(40) 考察样本均数(变量名为 mean) graph mean,xlabel bin(40)考察：原始资料和样本均数的峰的位置，离散程度。考察非正态分布情况下，样本均数可以运行下列程序双峰分布的样本均数分布程序：simubpeak.ado 自由度为 1 的χ2分布的样本均数模拟程序simuchi.ado 把上述程序复制到连接：net set ado 路径:\stata\ado\base 路径:\stata\ado\base 样本量操作：simubpeak.ado simuchi.ado 样本量考察原始资料的分布和样本均数的分布变化，原始资料所在总体分布的频数图：graph x1,bin(40) xlabel 样本均数的抽样分布的频数图：graph meanx ,bin(40) xlabel 考察原始资料 x1,x2 的标准差和样本均数 meanx 的标准差样本量 n9162536100考察不同样本量对样本均数分布的影响。可以证明：样本量较大时，样本均数的分布趋向于正态分布(称为中心极限定理)，并且样本均数的总体均数(理论均数)仍与样本所在总体相同，样本均数的总体标准差(标准误)＝样本所在总体的总体标准差σ nStata 软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则：如果配对的差值服从近似正态分布(小样本)或大样本，则用配对 t 检验小样本的情况下，配对差值呈明显偏态分布，则用配对秩符号检验(matched-pairs signed-ranks test)。例 1 10 例男性矽肺患者经克矽平治疗，其血红蛋白（g/dL）如下：表 10 例男性矽肺患者血红蛋白值（g/dL）病例号治疗前治疗后 1 11.3 14.0 2 15.0 13.8 3 15.0 14.0 4 13.5 13.5 5 12.8 13.5 6 10.0 12.0 7 11.0 14.7 8 12.0 11.4 9 13.0 13.8 10 12.3 12.0问：治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡，因为对结果的解释可能会有问题) Stata 数据输入结构X1 11.3 15 15 13.5 12.8 10 11 12 13 12.3 X2 14 13.8 14 13.5 13.5 12 14.7 11.4 13.8 12操作如下：gen d=x1-x2 swilk d产生配对差值的变量 d 正态性检验正态性检验结果如下：. sktest d Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------d | 0.279 0.774 1.43 0.4885正态性检验的无效假设为：资料正态分布相应的备选假设为：资料非正态分布 α=0.05，由于正态性检验的 P 值=0.40189&&α，故可以认为资料近似服从正态分布。 ttest d=0 α=0.05 结果如下：One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------d | 10 -.735 -1.72881 -----------------------------------------------------------------------------Degrees of freedom: 9 Ho: mean(d) = 0 Ha: mean & 0 t = -1.3066 P & t = 0.1119 Ha: mean ~= 0 t = -1.3066 P & |t| = 0.2237 Ha: mean & 0 t = -1.3066 P & t = 0.8881配对 t 检验 :H0:μd=0vs H1:μd≠0 ，P 值=0.2237&α，故认为治疗前后的血红蛋白的平均数差异没有统计学意义。即：没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。如果已知差值的样本量，样本均数和样本标准差，可以用立即命令如下(如，已知样本量为 10，差值的样本均数为-0.66，差值的标准差为 1.65，则输入命令如下： ttesti 样本量样本均数样本标准差 0 10 -0.66 1.65 0本例为： ttesti得到下列结果如下：. ttesti 10 .66 1.65 0 One-sample t test -----------------------------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------x | 10 .66 ..65 -..840339 -----------------------------------------------------------------------------Degrees of freedom: 9 Ho: mean(x) = 0 Ha: mean & 0 Ha: mean ~= 0 Ha: mean & 0 t = 1.2649 t = 1.2649 t = 1.2649 P & t = 0.8812 P & |t| = 0.2377 P & t = 0.1188结果解释与结论同上述相同。如果对于小样本的情况下，差值不满足正态分布，则用 Match-Sign-rank test，操作如下： signrank 差值变量名=0 假如本例不满足正态分布(为了借用上例资料，而假定的，实际上本例满足正态分布)则 H0：差值的中位数＝0 (其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率＝治疗前的血红蛋白小于治疗后的血红蛋白的概率)H1：差值的中位数≠0 α=0.05本例为 signrank d=0Wilcoxon signed-rank test sign | obs sum ranks expected -------------+--------------------------------positive | 4 18 27 negative | 5 36 27 zero | 1 1 1 -------------+--------------------------------all | 10 55 55 unadjusted variance 96.25 adjustment for ties 0.00 adjustment for zeros -0.25 ---------adjusted variance 96.00 Ho: d = 0 z = -0.919 Prob & |z| = 0.3583P 值=0.3583&&α，故没有足够的证据说明两个总体不同。二、平行对照设计的两组资料平均水平统计检验统计方法选择原则：如果两组资料的方差齐性和相互独立的，并且每组资料服从正态分布(大样本资料可以忽略正态性问题)，则用成组 t 检验，否则可以用成组 Wilcoxon 秩和检验。例 2 为研究噪声对纺织女工子代智能是否有影响，一研究人员在某纺织厂随机抽取接触噪声 95dB （A）、接触工龄 5 年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工，其子女（学前幼儿）作为研究对象，按韦氏学前儿童智力量表（中国修订版）测定两组幼儿智商，结果如下。问噪声对纺织女工子代智能有无影响？(接触组 group=0，不接触组 group=1) 资料及其结果如下：group 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 x 79 93 91 92 94 77 93 74 91 101 83 73 88 102 90 100 81 91 83 106 84 78 87 95 101 101 100 114 86 106 107 107 94 89 1041 1 1 1 1 1 1 1 1 1 1 1 1 1 198 110 89 103 89 121 94 95 92 109 98 98 120 104 110方差齐性检验 H0：σ1＝σ2 α=0.1 两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x,by(group)Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 25 89.08 1..66 92.84234 1 | 25 101.52 1...34 ---------+-------------------------------------------------------------------combined | 50 95.3 1..98 98.47002 -----------------------------------------------------------------------------Ho: sd(0) = sd(1) F(24,24) observed = F_obs = 0.920 F(24,24) lower tail = F_L = F_obs = 0.920 F(24,24) upper tail = F_U = 1/F_obs = 1.087 Ha: sd(0) & sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) & sd(1) P & F_obs = 0.4195 P & F_L + P & F_U = 0.8389 P & F_obs = 0.5805vsH1:σ1≠σ2P 值=0.8389&&α，因此可以认为两组方差齐性的。正态性检验：H0：资料服从正态分布 vs α=0.05 每一组资料正态性检验. swilkH1：资料偏态分布x if group==1 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob&z -------------+------------------------------------------------x | 25 0. -0.667 0.74747 . swilk x if group==0 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob&z -------------+------------------------------------------------x | 25 0. -0.513 0.69588P 值均大于α，因此可以认为两组资料都服从正态分布 H0：μ1＝μ2 α=0.05 ttest x,by(group)Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 25 89.08 1..66 92.84234 1 | 25 101.52 1...34 ---------+-------------------------------------------------------------------combined | 50 95.3 1..98 98.47002 ---------+-------------------------------------------------------------------diff | -12.44 2..7429 -----------------------------------------------------------------------------Degrees of freedom: 48 Ho: mean(0) - mean(1) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = -4.7232 t = -4.7232 t = -4.7232 P & t = 0.0000 P & |t| = 0.0000 P & t = 1.0000vsH1：μ1≠μ2P值(&0.0001)&α,并且有μ0－μ1的 95%可信区间为(-17.7429)可以知道，不接触组幼儿的平均智商高于接触组的幼儿平均智商，并且差别有统计学意义。如果已知两组的样本量、样本均数和样本标准差，也可以用立即命令进行统计检验ttesti 样本量 1 样本均数 1 样本标准差 1 样本量 2 样本均数 2 样本标准差 2例如：本例第 1 组 n1=25 均数 1=89.08 标准差 1=9.115 第 2 组 n2=25 均数 2=101.52 标准差 2=9.505 则 ttesti 25 89.08 9.115 25 101.52 9.505Two-sample t test with equal variances -----------------------------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------x | 25 89.08 1.823 9.115 85.49 y | 25 101.52 1.901 9.505 97.35 ---------+-------------------------------------------------------------------combined | 50 95.3 1..93 98.47007 ---------+-------------------------------------------------------------------diff | -12.44 2..303 -----------------------------------------------------------------------------Degrees of freedom: 48 Ho: mean(x) - mean(y) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = -4.7231 t = -4.7231 t = -4.7231 P & t = 0.0000 P & |t| = 0.0000 P & t = 1.0000结果解释同上。方差不齐的情况，(小样本时，资料正态分布)还可以用 t’检验命令：ttest 立即命令为观察变量名，by(分组变量名) unequalttesti 样本量 1 均数 1 标准差 1 样本量 2 均数 2 标准差 2,unequal假定本例的资料方差不齐(实际为方差不齐的)，则要用 t’检验如下 ttest x,by(group) unequalTwo-sample t test with unequal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 25 89.08 1..66 92.84234 1 | 25 101.52 1...34 ---------+-------------------------------------------------------------------combined | 50 95.3 1..98 98.47002 ---------+-------------------------------------------------------------------diff | -12.44 2..7189 -----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 47.9159 Ho: mean(0) - mean(1) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = -4.7232 t = -4.7232 t = -4.7232 P & t = 0.0000 P & |t| = 0.0000 P & t = 1.0000结果解释同上。 t’检验有许多方法，这里介绍的 Satterthwaite 方法，主要根据两个样本方差差异的程度校正相应的自由度，由于本例的两个样本方差比较接近，故自由度几乎没有减少(t 检验的自由度为 48,而本例 t’ 自由度为 47.9159)。由于 t 检验要求的两组总体方差相同(称为方差齐性)，以及由于抽样误差的原因，样本方差一般不会相等，但是方差齐性的情况下，样本方差表现为两个样本方差之比≈1。(注意：两个样本方差之差很小，仍可能方差不齐。如：第一个样本标准差为 0.1，样本量为 100,第 2 个样本标准差为 0.01，样本量为 100，两个样本标准差仅差 0.09，但是两个样本方差之比为 100。故用方差齐性检验的结果如下：方差齐性的立即命令为 sdtesti 样本量 1 . 标准差 1 样本量 2 . 标准差 2sdtesti100.0.1100. 0.01Variance ratio test ----------------------------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------------------x | 100 . .01 .1 . . y | 100 . .001 .01 . . ---------+------------------------------------------------------------------combined | 200 . . . . . ----------------------------------------------------------------------------Ho: sd(x) = sd(y) F(99,99) observed = F_obs = 100.000 F(99,99) lower tail = F_L = 1/F_obs = 0.010 F(99,99) upper tail = F_U = F_obs = 100.000 Ha: sd(x) & sd(y) P & F_obs = 1.0000 Ha: sd(x) ~= sd(y) P & F_L + P & F_U = 0.0000 Ha: sd(x) & sd(y) P & F_obs = 0.0000P 值&0.0001，因此认为两组的方差不齐。故方差齐性是考察两个样本方差之比是否接近 1。如果本例的资料不满足 t 检验要求(注：实际是满足的，只是想用本例介绍成组秩和检验)，则用秩和检验(Wilcoxon Ranksum test)。 H0:两组资料所在总体相同 H1：两组资料所在总体不同 α＝0.05 命令：ranksum 观察变量名,by(分组变量)本例为 ranksum x,by(group). ranksum x,by(group) Two-sample Wilcoxon rank-sum (Mann-Whitney) test group | obs rank sum expected -------------+--------------------------------0 | 25 437 637.5 1 | 25 838 637.5 -------------+--------------------------------combined | 50
unadjusted variance adjustment for ties adjusted variance .70 ---------2652.55Ho: x(group==0) = x(group==1) z = -3.893 Prob & |z| = 0.0001P 值&0.0001&α，故认为两个总体不同练习题一、某地随机抽样调查了部分健康成人红细胞数和血红蛋白量，结果如下，请就此资料统计分析：指标红细胞数（1012/L）血红蛋白（g/L）性别例数男女男女 360 255 360 255 均数 4.66 4.18 134.50 117.60 标准差标准值 0.58 0.29 4.84 4.337.10 140.20 10.20 124.70（1）该地健康成年男女血红蛋白含量有无差别？（2）该地男女两项血液指标是否均低于上表的标准值（若测定方法相同）？二、为了解聋哑学生学习成绩与血清锌含量的关系，某人按年龄、性别和班级在聋哑学校随机抽取成绩优、差的 14 对学生进行配对研究，得其结果如下。问聋哑学生学习成绩与血清锌含量有无关系？表 14 对学生的血清锌含量（μg/mL）编号 1 优生组 1.20 差生组 1.31 编号优生组 0.80 差生组 0.8682 3 4 5 6 70.99 1.03 0.90 1.22 0.90 0.971.34 1.10 0.72 0.92 1.34 0.989 10 11 12 13 140.84 0.85 1.05 1.08 1.15 0.900.72 0.88 0.81 1.30 0.85 0.80教学应用：考察影响t检验结果的各种因素 1. 首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的目录下\ado\base(例如：Stata软件安装在D:\stata，则把这两个程序复制到d:\stata\ado\base目录下。然后输入连接命令:在 STATA环境下，输入 net set ado 路径\stata\ado\base。(路径表示Stata所在的盘符和目录) 2. 程序ttest2.ado是模拟在正态总体中随机抽10000个样本，每个样本有2组，两组的样本量、正态分布的总体均数和标准差由读者选择输入，考察α=0.05的情况下，考察当两个总体均数相同时拒绝 H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttest2.ado的输入命令为： ttest2 样本量1 均数1 标准差1 样本量2 均数2 标准差2例如：考察两组样本量均为30，总体均数均为100，标准差均为6 的拒绝H0(μ1=μ2)比例，结果如下：. ttest2 30 100 6 30 100 6 两样本t检验模拟程序输入样本量1 均数1 标准差1 样本量2 均数2 标准差2 sig | Freq. Percent Cum. ------------+----------------------------------receive |
95.06 refuse | 494 4.94 100.00 ------------+----------------------------------Total |
Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------average1 | 88 1..78 sd1 | 067 ...692573 average2 | 75 1..37 sd2 | 536 ...546211 t | 10000 -..87 3.602131 -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+----------------------------------------------------------t|
-2...955956 | 50 -.0115932 -.37221 | 97.5 1...033179 average1 |
97.36 97.93009 | 50 99.17 100.0172 | 97.5 102.4 102.1734 average2 |
97.49 97.91781 | 50 99.12 100.0107 | 97.5 102.1 102.2403在随机抽10000个样本中，计算了10000个t值，结果有494次拒绝 H0(μ1=μ2)，因此非常接近α=0.05。建议读者运行程序ttest2考察下列情况目的1：μ1≠μ2时，不同的样本量，考察下列不同情况下的接受H0的比例(估计β)以及两组样本量之比不同的情况对检验结果的影响。两组的总体标准差σ=2 μ1=100 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 μ2=99 μ1=100 μ2=98 μ1=100 μ2=9710:10 20:20 30:30 40:40 30:50 20:60 10:7010:10 30:30 10:50 40:40 30:50 20:60 10:7010:10 20:20 30:30 40:40 30:50 20:60 10:70目的2：考察方差不齐对t检验(不是t’检验)结果的影响 μ1=100 σ1=1 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 n1：n2 μ2=100 σ2=9 μ1=100 σ1=9 μ2=98 σ2=1 μ1=100 σ1=5 μ2=97 σ2=540:10 10:40 60:30 30:60 30:30 40:40 40:4040:10 10:40 60:30 30:60 30:30 40:40 40:4040:10 10:40 60:30 30:60 30:30 40:40 40:40目的3：通过运行程序ttestexp.ado，考察资料非正态分布对结果的影响。3. 程序ttestexp.ado是模拟在指数分布总体中随机抽10000个样本，每个样本有2组，两组的样本量和总体均数由读者选择输入，考察 α=0.05的情况下，考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttestexp.ado的输入命令为： ttestexp 样本量1 均数1 样本量2 均数2例如：考察两组样本量均为10，总体均数均为1的拒绝H0(μ1=μ2)的比例，结果如下：. ttestexp 5 1 5 1 指数分布输入样本量1 均数1 样本量2 均数2 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------average1 | 16 .52 sd1 | 14 .092 average2 | 233 .513 sd2 | 13 .248 t | 10000 -....235384 sig | Freq. Percent Cum. ------------+----------------------------------receive |
96.30 refuse | 370 3.70 100.00 ------------+----------------------------------Total |
-- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------t |
-2..2289| | average1 | | | average2 | | |100001000050 97.5 2.5 50 97.5 2.5 50 97.5..48 2.62 2.092387-..39 2.33 2.0545..41 2.75 2.14614拒绝H0(μ1=μ2)的比例为3.7%，离开α=0.05，较远。考察下列样本量情况与偏态分布造成的影响之间的关系。 n1：n2 μ1=1,μ2=1 5:5 n1：n2 10:10 10:10 10:10 n1：n2 30:30 30:30 30:30 n1：n2 20:40 20:40 20:40 n1：n2 60:60 60:60 60:60μ1=1.5,μ2=1 5:5 μ1=2,μ2=1 5:5您能从上述模拟结果可以得到下列结论 1)当μ1≠μ2时且方差齐性的正态分布情况下，n1=n2时，拒绝H0的比例比较高，可以证明t检验中，两组样本量为n1和n2，则其检验效能等价于每组样本量相同n=2 1 1 + n1 n2。特别当两组样本量之比为n：kn时，则样本量等价于2 1 1 + n kn=2n & 2n ，也就是说，如果一组的样本量为10，另 1 1+ k一组的样本量再大，其检验效能也不会超过两组样本量相同且为20 的统计检验效能。 2)当方差不齐时，且μ1=μ2，拒绝H0的比例偏离α，但是n1=n2时，方差不齐对结果的影响将下降。 3)资料偏态分布，则小样本时，偏态分布对结果有影响，大样本时，偏态分布对结果基本无影响。Stata 软件基本操作和数据分析入门第五讲多组平均水平的比较赵耐青一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下，如果配对的差值资料服从正态分布，用配对 t 检验 (ttest 差值变量=0) b)大样本的情况下，可以用配对 t 检验 c)小样本的情况下，并且配对差值呈偏态分布，则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下，可以用成组 t 检验 (ttest 效应指标变量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布，可以用成组 t 检验 c)如果方差不齐，或者小样本情况下偏态分布，则用秩和检验(Ranksum test)group 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x 79 93 91 92 94 77 93 74 91 101 83 73 88 102 90 100 81 91 83 106 84 780 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 187 95 101 101 100 114 86 106 107 107 94 89 104 98 110 89 103 89 121 94 95 92 109 98 98 120 104 110二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求)，则采用完全随机设计的方差分析方法(即：单因素方差分析，One Way ANOVA)进行分析。 b)方差不齐或小样本情况下资料偏态，则用 Kruskal Wallis 检验(H 检验)例5.1 为研究胃癌与胃粘膜细胞中DNA含量（A.U）的关系，某医师测得数据如下，试问四组人群的胃粘膜细胞中平均DNA含量是否相同？ DNA 含量（A.U） group 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 2 14.61 17.54 15.1 早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24 组别晚期胃癌423.73 19.46 22.39 19.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.70由于这四组对象的资料是相互独立的，因此属于完全随机分组类型的。检验问题是考察四组 DNA 含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用 One way-ANOVA 进行分析，反之用 Kruskal Wallis 检验。 STATA 数据输入格式 g 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 x 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24 23.73 19.46 22.394 4 4 4 4 4 4 4 4 分组正态性检验，α=0.05 . sktest x if g==119.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.7Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------x | 0.491 0.485 1.07 0.5861 . sktest x if g==2 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------x | 0.482 0.541 0.96 0.6201 . sktest x if g==3 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------x | 0.527 0.750 0.52 0.7704 . sktest x if g==4 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------x | 0.260 0.616 1.75 0.4166上述结果表明每一组资料都服从正态分布。单因素方差分析的 STATA 命令：oneway 效应指标变量分组变量,t b 其中 t 表示计算每一组均数和标准差,b 表示采用 Bonferroni 统计方法进行两两比较。本例命令为 oneway x group,t b. oneway x g,t b | Summary of x g | Mean Std. Dev. Freq. ------------+-----------------------------------1 | 11.. 2 | 15.. 3 | 20.. 4 | 22.9087 12 ------------+-----------------------------------Total | 17.. Analysis of Variance Source SS df MS F Prob & F -----------------------------------------------------------------------Between groups 824. 274. 0.0000 Within groups 151. 3. -----------------------------------------------------------------------Total 976. 21.2343912 Bartlett's test for equal variances: chi2(3) = 1.1354 Prob&chi2 = 0.769 方差齐性的检验为：卡方=1.1354，自由度=3,P 值=0.769，因此可以认为方差是齐性的。 H0：μ1=μ2=μ3=μ4 四组总体均数相同 H1：μ1，μ2，μ3，μ4不全相同 α=0.05，相应的统计量 F=77.87 以及相应的自由度为 3 和 43，P 值&0.0001，因此 4 组均数的差别有统计学意义。 Comparison of x by g (Bonferroni) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------2 | 3.48697(第 2 组样本均数－第 1 组样本均数) | 0.000(H0:μ1=μ2检验的P值) | 3 | 9.83(第 3 组样本均数－第 2 组样本均数) | 0.000 0.000(H0:μ3=μ2检验的P值) | 4 | 10.17 1.02333(第 4 组样本均数-第 3 组样本均数) | 0.000 0.000 1.000(H0:μ3=μ4检验的P值)\ 上述输出为两两比较的结果，在表格的每个单元中，第一行为两组均数的差值，第二行为两组均数比较检验的 P 值。根据上述结果可以知道，第 2 组、第 3 组和第 4 组的 AU 均数均大于第 1 组的 AU 均数，并且差别有统计学意义。说明肠化生患者和胃癌患者的 DNA 的 AU 含量平均水平均高于正常人的 AU 平均水平，并且差别有统计学意义。第 3 组和第 4 组的 AU 均数也大于第 2 组的 AU 平均水平，并且差别有统计学意义。说明胃癌患者的 DNA 的 AU 含量平均水平均高于肠化生患者的 AU 平均水平，并且差别有统计学意义。第 3 组和第 4 组两组均数的差别没有统计学意义，说明没有足够的证据可以 DNA 的 AU 含量与癌症的早期与晚期有关系。假如本例的资料不满足方差分析的要求，则用 Kruskal Wallis 检验，数据结构同上。命令为： kwallis 效应指标变量, by(分组变量) 本例的命令为 kwallis x,by(g) H0：4 组的AU总体分布相同 H1：4 组的AU总体分布不全相同 α=0.05结果如下： Test: Equality of populations (Kruskal-Wallis test) g _Obs _RankSum 1 11 72.00 2 12 205.00 3 12 411.50 4 12 439.50 chi-squared = 37.814 with 3 d.f. probability = 0.0001 chi-squared with ties = probability = 0. with 3 d.f.说明：4 组AU的总体分布不全相同，然后秩和检验，但α应取小一些(多重比较时，会增大第一类错误的概率)。根据Sidak检验的建议：α ′ = 1 ? (1 ? α ) k ，其中k为要比较的次数，α为多组比较总的检验水平(一般为 0.05)，α’为两两比较时的检验水平。如本例：4 组两两比较共比 C4 = 6 次，因此 a′ = 1 ? (0.95) 6 = 0.0085 ，21 1对于比较第 1 组和第 2 组的 AU 分布差别的操作命令为：先计算中位数 sort g 组别变量排序 by g:centile x,centile(50) 计算各组中位数 -& g = 1 -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------x | 11 50 12.29 9..7932 -& g = 2 -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------x | 12 50 14.855 13.72 -& g = 3 -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval]-------------+------------------------------------------------------------x | 12 50 21.14 19.43 -& g = 4 -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------x | 12 50 21.36 20.96 得到这 4 组中位数分别为：M1=12.29，M2=14.855，M3=21.14 和M4=21.36ranksum xif g==1 | g==2,by(g)Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------1 | 11 72 132 2 | 12 204 144 -------------+--------------------------------combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------adjusted variance 264.00 Ho: x(g==1) = x(g==2) z = -3.693 Prob & |z| = 0.0002 P值&α’，因此第 2 组AU的平均水平要高于第 1 组的平均水平(M2&M1)，并且差别有统计学意义。第 1 组与第 3 组比较 ranksum x if g==1 | g==3,by(g) Two-sample Wilcoxon rank-sum (Mann-Whitney) test g | obs rank sum expected -------------+--------------------------------1 | 11 66 132 3 | 12 210 144 -------------+--------------------------------combined | 23 276 276 unadjusted variance 264.00 adjustment for ties 0.00 ---------adjusted variance 264.00 Ho: x(g==1) = x(g==3)z = Prob & |z| =-4.062 0.0000P值&α’，因此第 3 组AU的平均水平要高于第 1 组的平均水平(M3&M1)，并且差别有统计学意义，其他比较类似进行。要注意的问题： ? 在方差分析中，要求每一组资料服从正态分布(小样本时)，并不是要求各组资料服从一个正态分布(因为这就意味各组的总体均数相同，失去统计检验的必要性)，所以不能把各组的资料合在一起作正态性检验。总的讲，方差分析对正态性具有稳健性，即：偏态分布对方差分析的结果影响不会太大，故正态性检验的α取 0.05 也就可以了。 ? 样本量较大时，方差分析对正态性要求大大降低(根据中心极限定理可知：样本均数近似服从正态分布)。并且由于大多数情况下，样本资料只是近似服从正态分布而不是完全服从正态分布。由于在大样本情况下，用正态性检验就变为很敏感，对于不是完全服资料服从正态分布。因为正态性检验不从正态分布的资料往往会拒绝正态性检验的H0：能检验资料是否近似服从正态分布，而是检验是否服从正态分布。故在大样本情况下，考察资料的近似正态性，应用频数图进行考察。 ? 方差齐性问题对方差分析相对比较敏感，并且并不是随着样本量增大而方差齐性对方差分析减少影响的。但是当各组样本量接近相同或相同时，方差齐性对方差分析呈现某种稳健性。即：只有当各组样本量相同时，方差齐性对方差分析结果的影响大大降低。这时随着样本量增大，影响会进一步降低。相反，如果各组样本量相差太大时，方差齐性对方差分析结果的影响很大。这时随着样本量增大，影响会进一步加大。2. 随机区组设计(处理组之间可能不独立) a)残差(定义为：也就是随机区组方差分析中的误差项) eij = X ij + X ? X i. ? X . j ，的方差齐性且小样本时正态分布，则用随机区组的方差分析(无重复的两因素方差分析,Two-way ANOVA)。 b)不满足方差齐性或小样本时资料偏态，则对用秩变换后再用随机区组的方差分析也可以直接用非参数随机区组的秩和检验 Fredman test)。例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值，请问在不同季节该湖水中氯化物的含量有无差别？表2 某湖水中不同季节的氯化物含量测定值（mg/L） location no 1 2 3 4 5 6 7 8 春 21.28 22.78 20.90 19.90 21.49 22.38 21.67 22.06 夏 18.33 19.81 18.93 21.23 19.09 17.92 19.39 19.65 秋 17.27 16.55 16.36 17.86 15.11 16.57 17.19 16.58 冬 14.91 14.85 16.30 15.73 17.05 14.34 16.31 14.33显然同一地点不同季节的氯化物含量有一定的相关性，故不能采用完全随机设计的方差分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为一个区组，因此可以用随机区组的方差分析进行统计分析。设第8个地点在冬季的氯化物总体均数为μ0，同样在冬季，第i个地点的氯化物总体均数与第8个地点在冬季的氯化物总体均数相差βi，i=1，2，3，4，5，6，7。因此在冬季的这8 个地点在冬季的氯化物总体均数可以表示为地点编号冬季氯化物均数 1 μ0+β1 2 μ0+β2 3 μ0+β3 4 μ0+β4 5 μ0+β5 6 μ0+β6 7 μ0+β7 8 μ0假定在同一地区，春季的氯化物总体均数与冬季的氯化物总体均数相差α1，因此春节和冬季的氯化物总体均数可以表示为地点编号冬季氯化物均数1 μ0+β12 μ0+β23 μ0+β34 μ0+β45 μ0+β56 μ0+β67 μ0+β78 μ0春季氯化物均数 μ0+α1+β1 μ0+α1+β2 μ0+α1+β3 μ0+α1+β4 μ0+α1+β5 μ0+α1+β6 μ0+α1+β7 μ0如果α1＝0说明在同一地点，冬季和春季的氯化物总体均数相同；α1&0说明春季的氯化物含量平均高于冬季氯化物含量，反之α&0，说明春季氯化物含量均数低于冬季氯化物含量。同理假定在同一地区，夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差α2和 α3，则四个季节的氯化物总体均数可以表示为地点编号冬季氯化物均数1 μ0+β12 μ0+β23 μ0+β34 μ0+β45 μ0+β56 μ0+β67 μ0+β78 μ0春季氯化物均数 μ0+α1+β1 μ0+α1+β2 μ0+α1+β3 μ0+α1+β4 μ0+α1+β5 μ0+α1+β6 μ0+α1+β7 μ0 夏季氯化物均数 μ0+α2+β1 μ0+α2+β2 μ0+α2+β3 μ0+α2+β4 μ0+α2+β5 μ0+α2+β6 μ0+α2+β7 μ0 春季氯化物均数 μ0+α3+β1 μ0+α3+β2 μ0+α3+β3 μ0+α3+β4 μ0+α3+β5 μ0+α3+β6 μ0+α3+β7 μ0根据上述总体均数表示，可以知道：在四个季节中的氯化物总体均数(同一地点)无变化就是 H0：α1=α2=α3=0(在随机区组方差分析中称为无处理效应，但不能称4组的总体均数相同，因为在同一季节中不同地点的总体均数可能不同)。 H1：α1，α2，α3不全为0Stata 数据输入格式t 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 id 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 x 21.49 20.3 21.85 21.33 18.38 18.14 19.7 19.71 17.271413 3 3 3 3 3 3 4 4 4 4 4 4 4 42 3 4 5 6 7 8 1 2 3 4 5 6 7 816.19 17.96 16.34 16.59 14.82 15.69 14.67 14.33015其中 id 表示观察地点编号，t＝1，2，3，4 对应表示春节、夏季、秋季和冬季。 Stata 操作命令： anova x t id . anova x t idNumber of obs = 32 Root MSE = 1.01769 R-squared = 0.8923 Adj R-squared = 0.8410Source | Partial SS df MS F Prob & F -----------+---------------------------------------------------Model | 180. 18..40 0.0000 | t | 177. 59..08 0.0000 id | 2. ..40 0.8942 | Residual | 21. 1.0356961 -----------+---------------------------------------------------Total | 201. 6.处理效应H0：α1＝α2＝α3＝0 的检验对应的统计量 F =MS处理 18.021 = = 57.08 MS误差 1.036相应的 P 值&0.0001(计算机输出值是 0.0000)，所以拒绝无效假设，可以认为 4 个季节的氯化物总体均数不全相同。不同季节中的两两比较用 LSD 方法检验如下：在输入 anova x t id 命令后，再输入 regress 命令便得到下列结果Source | SS df MS -------------+-----------------------------Model | 180. 18.0214326 Residual | 21. 1.0356961 -------------+-----------------------------Total | 201. 6.Number of obs F( 10, 21) Prob & F R-squared Adj R-squared Root MSE= = = = = =32 17.40 0.3 0.7-----------------------------------------------------------------------------x Coef. Std. Err. t P&|t| [95% Conf. Interval] -----------------------------------------------------------------------------_cons (μ0) 15.36 25.78 0.000 14.77 t α1= 1 6. 0.000 5..138822 α2= 2 3. 0.000 2..874244 α3= 3 1.28 2.37 0.027 .. (dropped) id β1= 1 -.9 0.774 -1..287265 β2= 2 . 0.643 -1..835231 β3= 3 -.9 0.962 -1..462186 β4= 4 . 0.475 -..01966 β5= 5 . 0.966 -1..527955 β6= 6 -.9 0.628 -1..143156 β7= 7 . 0.509 -1.. (dropped) 其中 α1 = 6.081 ，对应的假设检验H0：α1=0 的统计量t=11.95，P值&0.001，95%可信区间为 (5.022，7.139)，因此可以认为春季的氯化物平均高于冬季，差别有统计学意义。)α 2 = 3.816 ，对应的假设检验H0： α2=0 的统计量t=7.50， P值&0.001， 95%可信区间为 (2.758，4.874)，因此可以认为夏季的氯化物平均高于冬季，差别有统计学意义。)α 3 = 1.208 ，对应的假设检验H0 ： α3=0 的统计量t=2.37，P值=0.027，95%可信区间为(0.)，因此可以认为秋季的氯化物平均高于冬季，差别有统计学意义。对于春季氯化物平均数(μ0+α1+βi)与夏季的氯化物平均数(μ0+α2+βi)比较对应为α1&α2、α1=α2 和α1&α2的问题。因此需要检验H0：α1＝α2 vs H1：α1≠α2 ，相应的STATA命令(anova x t id 命令和regress命令后)为test}

我爱游戏网