brushing在统计学中统计学sig是什么意思思

【图文】第十章
地统计分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
地统计分析
&&地理信息系统空间分析实验教程(第二版)
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢豆丁微信公众号
君,已阅读到文档的结尾了呢~~
统计学专业术语词汇表
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
统计学专业术语词汇表
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口当前位置: >>
国人健康风险模型及风险评估方法研究
分类号 国际十进分类号(UDC)密级第四军医大学学 位 论 文国人健康风险模型及风险评估方法研究(题名和副题名)李运明(作者姓名)指导教师姓名 指导教师单位 申请学位级别 论文提交日期 论文起止时间 学位授予单位徐勇勇 教授 第四军医大学卫生统计学教研室 博士 2011.04专业名称 答辩日期流行病与卫生统计学 2011.052009 年 04 月至 2011 年 04 月 第四军医大学 独 创 性 声 明秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我 个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文 中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,不包含本人或他人已申请学位或其他用途使用过的成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了致谢。 申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:保 护 知 识 产 权 声 明本人完全了解第四军医大学有关保护知识产权的规定,即:研究生在 校攻读学位期间论文工作的知识产权单位属第四军医大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为第四军医大学。 学校可以公布论文的全部或部分内容(含电子版,保密内容除外) ,可以采 用影印,缩印或其他复制手段保存论文。学校有权允许论文被查阅和借阅, 并在校园网上提供论文内容的浏览和下载服务。同意学校将论文加入《中 国优秀博硕士学位论文全文数据库》和编入《中国知识资源总库》 ,同意按 《中国优秀博硕士学位论文全文数据库出版章程》规定享受相关权益。论文作者签名:导师签名:日期: 国人健康风险模型及风险评估方法研究研 究 生:李运明 学科专业:流行病与卫生统计学 所在单位:第四军医大学卫生统计学教研室 导 师:徐勇勇 教授资助基金项目:国家自然科学基金项目(编号:) 科技部支撑计划项目(编号:2008BAI52B01) 关键词:健康测量;健康风险评估;健康风险模型;效度;信度 关联规则;项目反应理论中国人民解放军第四军医大学 二 O 一一年四月 第四军医大学博士学位论文目录缩略语表 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????1 中文摘要 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????3 英文摘要 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????7 前 言 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 12文献回顾 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 15 1 健康测量 ????????????????????????????????????????????????????????????????????????????????????????????????? 15 2 健康风险评估 ????????????????????????????????????????????????????????????????????????????????????????? 24 3 关联规则挖掘方法及其 HRA 应用 ???????????????????????????????????????????????????????? 30 4 项目反应理论及其 HRA 应用 ??????????????????????????????????????????????????????????????? 35 正 文 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 421 国人健康风险评估问卷的编制 ?????????????????????????????????????????????????????????????????? 42 1.1 条目池与数据标准???????????????????????????????????????????????????????????????????????????????? 42 1.2 自评健康基本数据集 ??????????????????????????????????????????????????????????????????????????? 45 2 健康风险模型效度和信度评价 ?????????????????????????????????????????????????????????????????? 53 2.1 数据与方法 ?????????????????????????????????????????????????????????????????????????????????????????? 53 2.1.1 数据来源 ???????????????????????????????????????????????????????????????????????????????????????? 53 2.1.2 效度评价方法 ???????????????????????????????????????????????????????????????????????????????? 54 2.1.3 信度评价方法 ???????????????????????????????????????????????????????????????????????????????? 55 2.2 结果 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 56 2.2.1 调查对象一般情况描述 ???????????????????????????????????????????????????????????????? 56 2.2.2 整体健康风险模型 ???????????????????????????????????????????????????????????????????????? 58 2.2.3 脂肪肝健康风险模型 ???????????????????????????????????????????????????????????????????? 61 2.2.4 乳腺增生健康风险模型 ???????????????????????????????????????????????????????????????? 63 2.2.5 健康风险模型效度分析结果????????????????????????????????????????????????????????? 64 2.2.6 健康风险模型信度分析结果????????????????????????????????????????????????????????? 68 第四军医大学博士学位论文2.3 讨论 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 69 3 健康风险评估项目与客观检查关联规则挖掘 ?????????????????????????????????????????? 71 3.1 数据与方法 ?????????????????????????????????????????????????????????????????????????????????????????? 71 3.1.1 数据来源 ???????????????????????????????????????????????????????????????????????????????????????? 71 3.1.2 数据预处理 ???????????????????????????????????????????????????????????????????????????????????? 71 3.1.3 关联规则挖掘方法 ???????????????????????????????????????????????????????????????????????? 73 3.1.4 关联规则评价方法 ???????????????????????????????????????????????????????????????????????? 75 3.2 结果 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 75 3.2.1 训练和验证数据集调查对象统计描述 ????????????????????????????????????????? 75 3.2.2 客观检查关联规则挖掘结果及解释 ????????????????????????????????????????????? 78 3.2.3 健康风险评估项目预测客观检查结果的评价 ????????????????????????????? 84 3.3 讨论 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 87 4 整体健康潜在特征模型及健康风险因素分析 ?????????????????????????????????????????? 89 4.1 数据与方法 ?????????????????????????????????????????????????????????????????????????????????????????? 89 4.1.1 数据来源 ???????????????????????????????????????????????????????????????????????????????????????? 89 4.1.2 整体健康潜在特征模型 ???????????????????????????????????????????????????????????????? 90 4.1.3 两参数两分类 IRT 模型 ???????????????????????????????????????????????????????????????? 91 4.2 结果 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 92 4.2.1 调查对象一般情况统计描述????????????????????????????????????????????????????????? 92 4.2.2 整体健康潜在特征模型分析结果 ????????????????????????????????????????????????? 94 4.3 讨论 ?????????????????????????????????????????????????????????????????????????????????????????????????????? 96 小 结 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 98参考文献 ?????????????????????????????????????????????????????????????????????????????????????????????????????????? 100 附 录 ?????????????????????????????????????????????????????????????????????????????????????????????????????????? 109附录 1 国人健康风险评估问卷主要参考卫生行业标准数据元 ???????????????? 109 附录 2 国人健康风险评估问卷(V1.0) ??????????????????????????????????????????????????? 114 附录 3 两参数两分类 IRT 模型 SAS 程序?????????????????????????????????????????????????? 122 个人简历和研究成果 ?????????????????????????????????????????????????????????????????????????????????????? 123 致 谢 ?????????????????????????????????????????????????????????????????????????????????????????????????????????? 125 第四军医大学博士学位论文缩略语表缩略词 ARM CAT CHRAQ V1.0 英文全称 association rule mining computerized adaptive testing Chinese Health Risk Appraisal Questionnaire V1.0 中文全称 关联规则挖掘 计算机自适应测验 国人健康风险评估问卷 (V1.0) 跨行业数据挖掘过程标准CRISP-DM cross-industry standard process for data mining CTT DBP DHHS classical test theory diastolic blood pressure Department of Health and Human Services DIA ECG HRA HRQOL ICC ICVD IRT IRT-2PL IRT-3PL Drug Information Association Electrocardiogram health risk appraisal health-related quality of life item characteristic curve ischemic cardiovascular diseases item response theory two-parameter IRT model three-parameter IRT model-1-经典测量理论 舒张压 美国卫生与公共服务部美国药品信息协会 心电图 健康风险评估 健康相关生存质量 项目特征曲线 缺血性心血管病 项目反应理论 两参数 IRT 模型 三参数 IRT 模型 第四军医大学博士学位论文缩略词 ISO英文全称 International Organization for Standardization中文全称 国际标准化组织NCI NHIS NIH PROMISNational Cancer Institute National Health Interview Survey National Institutes of Health Patient-Reported Outcomes Measurement System美国国家肿瘤研究所 美国健康调查 美国国家卫生研究院 个体自报健康测量系统SBP SRHMS WHO WHRsystolic blood pressure self-rated health measurement scale World Health Organization waist to hip ratio收缩压 自测健康评定量表 世界卫生组织 腰臀比-2- 第四军医大学博士学位论文国人健康风险模型及风险评估方法研究博士研究生 :李运明 导 师 :徐勇勇 教授第四军医大学军事预防医学院卫生统计学教研室,西安 710032中文摘要健康风险评估是健康管理的基础工具、前提条件和关键技术。目前, 健康风险评估已逐步发展成为流行病学、卫生统计学、行为医学、临床医 学、心理学等多种学科的交叉学科,是健康管理研究的热点问题。针对国 人健康管理中健康风险评估问题,本课题设计了适用于国人的健康风险评 估问卷,建立了自评健康基本数据集,在此基础上构建了 3 种健康风险评 估模型,并分别评价模型的效度和信度,采用关联规则挖掘和项目反应理 论研究了健康风险因素。本研究主要作了以下工作: 1.简要回顾了健康和自评健康概念、健康测量维度、个体主观健康测 量的演变、理论基础及定量化估计方法。回顾了健康风险评估国内外研究 现状、健康风险模型计分方法以及模型效度和信度评价方法。广泛复习和 回顾了关联规则挖掘方法、项目反应理论及其在健康测量和健康风险评估 的应用研究。 2.根据健康风险评估的概念及范畴,参考 10 份国际上公认的健康测 量量表、密西根大学健康管理研究中心的“成人健康风险评估”问卷、自 测健康评定量表等资料,构建了国人健康风险评估问卷条目池,设定了统-3- 第四军医大学博士学位论文一的问卷条目选择标准,并严格参照中华人民共和国卫生行业标准《健康 档案公用数据元》 (试行) 、 《健康档案基本架构与数据标准》 (试行)等, 对选项标准化后, 编制了国人健康风险评估问卷 (V1.0) (Chinese Health Risk Appraisal Questionnaire V1.0,CHRAQ V1.0) 。问卷包含个人一般情况(性 别、年龄、婚姻状况等) 、体格测量(身高、体重、胸围、腰围、臀围等) 、 生活方式(吸烟、饮酒、运动等) 、饮食习惯、个人及家族健康史、精神压 力、社会支持、健康意识、自评健康以及在职人员工作情况,累计共 64 个 项目。根据国人健康风险评估问卷(V1.0) ,建立了自评健康基本数据集, 包含 13 个大类, 累计共有 98 个数据元, 其中 33 个为健康档案公用数据元。 3.基于国人健康风险评估问卷(V1.0) ,采用循证医学的方法参考健 康风险相关文献,构建了 3 种健康风险模型:整体健康风险模型、脂肪肝 健康风险模型和乳腺增生健康风险模型,并分别评价了模型的效度和信度。 效度分析结果发现:3 种健康风险模型得分服从正态分布 (Kolmogorov-Smirnov Z=1.073,P=0.199;Z=1.126,P=0.158;Z=0.853, P=0.460 ) ;整体健康风险模型得分与全部客观检查阳性率存在线性关系 (r=0.774,P&0.001) ,与尿液分析、肝功七项、血脂四项、血糖、心电图、 腹部 B 超、胸部 X 线正位片检查结果的 Spearman 等级相关系数较大 ( P&0.001 ) ;脂肪肝健康风险模型得分与腹部 B 超检查脂肪肝结果的 ,脂肪肝组得分 Spearman 等级相关系数有统计学意义(r=0.497,P&0.001) 显著高于正常组(t=8.310,P&0.001) ;乳腺增生健康风险模型得分与红外 线乳腺检查结果的相关系数有统计学意义(r=0.524,P&0.001) ,乳腺增生 组模型得分显著高于正常组(t=5.297,P&0.001) 。信度分析结果发现: 3 种健康风险模型的克兰巴赫 α 系数分别为 0.652、0.679、0.791;分半信度 Spearman-Brown 系数分别为 0.784、0.819、0.868;重复测量信度分别为: 0.841、0.883、0.824(P&0.001) 。效度和信度分析表明:3 种健康风险模型 得分与客观检查结果具有较好的平行效度;不同客观检查结果间模型得分 区分度较高;内部一致性、重测信度和分半信度较高。-4- 第四军医大学博士学位论文4 . 将 关 联 规 则 挖 掘 方 法 应 用 于 健 康 风 险 评 估 领 域 , 利 用 SPSS Clementine 12.0 软件采用 Apriori 算法对国人健康风险评估问卷(V1.0)包 含的 28 个健康风险评估项目和 14 种客观检查在训练数据集(n=686)中进 行了关联规则挖掘,共产生了腹部 B 超、肝功七项、血脂四项、尿液分析、 脂肪肝 B 超检查、红外线乳腺检查、心电图、全血细胞分析、胸部 X 线正 位片, 共 9 种客观检查的关联规则, 解释了典型关联规则。 选取作用度 (lift) 大于 1 的正关联规则在验证数据集(n=174)中根据健康风险评估项目预测 客观检查结果,采用符合率、灵敏度、特异度、Kappa 值和 χ 2 检验评价预 测结果与实际检查结果的一致性。结果发现:预测结果与实际检查结果符 合率最大值为 0.936(红外线乳腺检查) 、最小值为 0.673(肝功七项) ;灵 敏度最大值为 1(红外线乳腺检查) 、最小值为 0.571(胸部 X 线正位片) ; 特异度最大值为 0.894(胸部 X 线正位片) 、最小值为 0.400(红外线乳腺检 查) ;Kappa 值均大于 0.4(P&0.001) 。关联规则预测结果假阴性较低、假阳 性较高,说明根据健康风险项目采用关联规则方法预测客观检查结果假阴 性较少,可将国人健康风险评估问卷(V1.0)作为筛查工具推荐客观检查, 印证了根据个人健康风险评估问卷结果推荐相关客观检查项目的可行性和 有效性。 5.以 9 种客观检查结果作为整体健康(潜变量)的测量变量,采用两 参数两分类 IRT 模型评价 12 项健康风险因素对整体健康的影响,即:采用 IRT 模型统一分析健康风险因素对 9 种客观检查结果的影响。 两参数两分类 IRT 模型参数估计采用 SAS/STAT PROC NLMIXED。两参数两分类 IRT 模 型所需估计参数数目比随机截距 Logistic 回归模型少, 且可计算得到后者参 数和 OR 值。IRT 模型参数估计结果发现:整体健康危险因素水平为男性、 年龄(50 以上) 、丧偶/离婚、离退休/无业/失业、BMI(≥28.0,肥胖) 、腰 ≥0.75 女) 、 收缩压 (≥120mmHg) 、 围 (≥85cm 男, ≥80cm 女) , 腰臀比 (≥0.90 男, 舒张压(≥90mmHg) 、曾经吸烟/吸烟、荤食为主、两周症状数目(≥2) 。本-5- 第四军医大学博士学位论文研究拓展了 IRT 模型在健康测量领域中的应用,将结构子模型引入整体健 康潜在特征模型,为统一评价多个健康风险因素对多个相关的健康测量结 果的影响提供了方法学基础。关键词:健康测量;健康风险评估;健康风险模型;效度;信度; 关联规则;项目反应理论-6- 第四军医大学博士学位论文Research on Chinese health risks model and risk appraisalCandidate for master: Li Yunming Supervisor: Xu Yongyong Department of Health Statistics, School of Military Preventive Medicine, Fourth Military Medical University, Xi’an 710032, ChinaAbstractHealth risk appraisal (HRA) is the basis tool, prerequisite key technologies for health management. Recently, the health risk appraisal has gradually developed into an interdisciplinary science of the epidemiology, health statistics, behavioral medicine, clinical medicine, psychology, etc., and is a hot domain of health management study. For the Chinese health risk appraisal problems in health management, in this thesis, the adult Chinese health risk appraisal questi based on the questionnaire, three health risks models were established, and evaluated the vali the statistical methods of association rule mining and item response theory were applied to health risk appraisal research. This thesis made the following tasks: 1. The concept of health and self-rated, health dimensions of health measurement, evolution of individual subjective health measurement, and subjective health measurement theory and quantitative methods were briefly introduced. The health risk appraisal research status at home and abroad, scoring-7- 第四军医大学博士学位论文methods of the health risk appraisal model, validity and reliability evaluation methods were systemic reviewed. The application studies of association rule mining and item response theory in health risk appraisal research were extensive reviewed. 2. According to definition of health risk appraisal and its’ scope, the health risk appraisal questionnaire item pool was collected, based on 10 internationally health measurement scales, “health risk appraisal” questionnaire of Health Management Research Center of the University of Michigan, self-rated health measurement scale, etc., and standardized by “Common data elements of health record” (trail version), “Base framework and data standard of health record” (trail version) of the People's Republic, etc.. The six uniform questionnaire item selection criteria were set in the research. The Chinese health risk appraisal questionnaire V1.0 (CHRAQ V1.0) was formed after pre-survey and item amendments. The questionnaire constituted by the 64 items: personal general information (gender, age, marital status, etc.), physical measurements (height, weight, chest circumference, waistline, hip circumference, etc.), lifestyle (smoking, alcohol consumption, exercise, etc.), eating habits, personal and family health history, stress, social support, health awareness, self-reported health, and the work status of employees. According to Chinese health risk appraisal questionnaire V1.0, the basic dataset of self-rated health was established, which contains 13 categories, 98 data elements, including 33 common data elements of health record. 3. Three health risk appraisal models were constructed, which were the overall health risks model, the fatty liver health risks model and the breast hyperplasia health risks model, based on the Chinese health risk appraisal questionnaire V1.0, referred to the related health risks in the literature. We-8- 第四军医大学博士学位论文evaluated the validity and reliability of these models. The results of validity analysis found: the scores of the three health risks models followed normal distribution (Kolmogorov-Smirnov Z=1.073, P=0.199; Z=1.126, P=0.158; Z=0.853, P=0.460); there was a linear relationship (r=0.774, P&0.001) between overall health risk model score and the positive rate of all the objective examination and the Spearman rank correlation coefficients between overall health risk model score and urinalysis, liver function examination, cholesterol examination, blood sugar examination, electrocardiogram, abdominalultrasonography, chest X ray examination were significant (P&0.001); the Spearman rank correlation coefficient between the fatty liver health risks model score and fatty liver result of abdominal ultrasonography was statistically significant (r=0.497, P&0.001), and the risk score of the fatty liver group was significantly higher than that of the normal group (t= 8.310, P&0.001); the Spearman rank correlation coefficient between the breast hyperplasia health risks model score and the breast hyperplasia result of the infrared breast examination was statistically significant (r=0.524, P&0.001), and the risk score of the breast hyperplasia group was significantly higher than that of the normal group (t=5.297, P&0.001). The results of reliability analysis found: the Cronbach’s alpha coefficients of the three health risks models were 0.652, 0.679, 0.791; the split-half reliability Spearman-Brown coefficients were 0.784, 0.819, 0.868; the test-retest reliability coefficients were 0.841, 0.883, 0.824 (n=88, P&0.001). Validity and reliability analysis show that: the convergent validity between the health risk score of these models and the objective examination re the distinguish ability of the health risk score between the different objective examination results was acceptable, the internal consistency, test-retest reliability and split-half reliability were high.-9- 第四军医大学博士学位论文4. The association rule mining method was applied to the field of health risk appraisal in our research. The Apriori algorithm, which is the classic algorithm of the association rule mining, was adopted to search the association rules in the training data set (n=686) between the 28 health risks items in the Chinese health risk appraisal questionnaire V1.0 and 14 objective examinations, by SPSS Clementine 12.0 software. The association rules of 9 objective examinations were found, which were abdominal ultrasonography, liver function examination, cholesterol examination, urinalysis, fatty liver examination by abdominal ultrasonography, infrared breast examination, electrocardiogram, blood examination, chest X ray examination, and the typical association rules were explained. The association rules, the lift of which was more than 1, were used to predict the results of the 9 objective examinations in test data set (n=174), and the consistency between the predicted results and the observed results was evaluated by consistent rate, sensitivity, specificity, Kappa and Pearson χ 2 test. The results showed that: the maximum consistent rate between the predicted and actual examinations results was 0.936 (infrared breast examination), and the minimum was 0.673 (liver function examination); the maximum sensitivity was 1 (infrared breast examination), and the minimum was 0.571 (chest X ray examination); the maximum specificity was 0.894 (chest X ray examination) and the minimum was 0.400 (infrared breast examination); Kappa values were greater than 0.40 (P&0.001). The false negative rate of the association rules predicted results was low, and the false positive rate was high, which indicate that the false negative predicted results base on the health risk items by association rule mining method was less. So the Chinese health risk appraisal questionnaire V1.0 can be used as a screening tool to recommend the objective examinations. Our research confirmed that recommending objective-10- 第四军医大学博士学位论文examinations based on the health risk appraisal questionnaire was practicable and effective. 5. The overall health was a latent variable and measured by 9 objective examinations. The 2-parameter dichotomous item response theory model was used to analyze the relationship between the overall health and 12 health risk factors, which was that IRT was adopted to establish an overall assessment of relationship between these objective examinations and health risk factors. The parameters of 2-parameter dichotomous IRT model were estimated by SAS/STAT PROC NLMIXED. The number of estimated parameters of 2-parameter dichotomous IRT model was less than that of Logistic regression model with random intercept, and the parameters of Logistic regression model with random intercept and the OR can be calculated by the IRT model parameters. The overall health risk factor levels were male, age (above 50 years old), widowed/divorced, retired/unemployed, BMI (≥28.0, obesity), waistline (≥85cm male, ≥80cm female) , waist to hip ratio (≥0.90 male, ≥0.75 female), systolic blood pressure (≥120mmHg), diastolic blood pressure (≥90mmHg), ever smoked/smoking, meat or fish based eating habits, number of symptoms in two weeks (≥2). Our research extended the application of the IRT in the field of health measurement and health risk appraisal. The structural model of IRT was focused, which characterized the relationship between the overall health (latent variable) and the health risk factors. The IRT model was used to assess the relationship between multiple health risk factors and a number of related health outcomes.Key words: h ass item response theory-11- 第四军医大学博士学位论文前1 研究背景言为了有效提高人民健康水平、遏制医疗经费过快增长,世界卫生组织 (World Health Organization, WHO) 和发达国家近年来提倡由传统疾病管理 转 向 全 民 健 康 管 理 , 即 通 过 健 康 管 理 ( health management , health administration)的手段达到健康促进(health promotion)的目的[1,? 2]。健康 管理是对个体及群体的健康风险因素进行全面管理的过程。即对健康危险 因素的测量、监测(发现健康问题)→ 评价、评估(认识健康问题)→ 干 预(解决健康问题)循环的不断运行。其中干预(解决健康问题)是核心。 健康管理的对象是全人口(不仅仅是患者) ,主要做法分 3 个步骤 6 个环节[3,?4]。三个步骤:一是健康状况的全面监测、分析和评估;二是提供健康咨询和指导;三是对健康危险因素进行干预。6 个环节包括健康、亚健康、疾 病危险、早期干预、疾病症状、疾病发生,见图 1。健康管理(健康干预、健康促进)早期干预健 康亚 健 康疾病危险疾病管理(疾病干预、临床治疗)图 1 健康管理的 6 个环节临床症状疾病发生-12- 第四军医大学博士学位论文健康管理的宗旨是调动个体和群体及整个社会的积极性,有效地利用 有限的资源来达到最大的健康效果,其中健康信息是健康管理的重要资源 之一。例如:制订健康管理计划必须了解个体和群体的疾病风险信息(如 环境因素) ;干预措施效果评价需要监测个体和群体的健康行为(如烟酒消 耗量) ;干预效果评价必须基于个体和群体的健康状况信息(如人群的发病 率、患病率、死亡率、期望寿命) ;不同个体和群体、不同时期的健康报告 是政府制定健康管理政策、实施健康促进方案、保证健康公平性的基本依 据。健康测量概念框架见图 2。 健康状况的科学度量、数量化分析与评估是疾病管理转变为健康管理 的先决条件。健康风险评估(health risk appraisal,HRA)是健康管理的基 础工具、前提条件和关键技术。美国等发达国家早在上世纪 70 年代就发生 医疗经费过快增长问题,健康风险评估方法的研究已比较深入,其应用也 非常广泛。目前,健康风险评估已逐步发展成为流行病学、卫生统计学、 行为医学、临床医学、心理学等多种学科的交叉学科,是健康管理研究的 热点问题[5,?6]。健康测量 概念框架图2 健康测量概念框架与信息利用-13- 第四军医大学博士学位论文2 研究目的和内容健康风险评估是健康管理的前提条件。 20 世纪 60 年代, 美国 Robbins LC 医生创立了预测医学, 首次提出了健康风险评估的概念, 建立了 Framingham 心脏病预测模型,为社区医生开展健康教育提供了支持[7]。接下来的 10 年, 美国疾病控制中心和加拿大卫生与福利部组织医学专家、流行病学专家、 医学统计学专家,制定了健康风险评估表,将各种不同的风险因素和相关 疾病罗列在一起,计算个体不同程度的风险因素对于主要疾病死亡率的影 响。20 世纪 70 年代,随着计算机技术的发展,美国和加拿大总结了 10 年 来健康风险研究的成果,研发了第一代美国成年人健康风险评估软件。20 世界 90 年代以前,发达国家健康风险评估主要针对单纯疾病死亡率。随着 人们对健康概念认识的深入,目前健康风险评估更大程度上针对疾病的患 病率和整体健康。 本研究的目的是:开发国人通用健康风险评估问卷和自评健康基本数 据集,探讨健康风险模型的构建和评估方法,研究个体健康评估问卷与客 观检查结果的相关性,探讨利用个体健康风险评估结果推荐客观检查的可 行性。 主要研究内容包括: (1)编制国人健康评估问卷,建立自评健康基本 数据集; (2)基于问卷填写项目,构建健康风险模型,评价模型效度和信 度; (3)对健康风险因素(问卷填写项目)与客观检查结果进行关联规则 挖掘,研究两者间是否存在强关联规则; (4)统一评价健康风险因素(问 卷填写项目)对客观检查结果的影响。-14- 第四军医大学博士学位论文文献回顾1 健康测量1.1 健康的概念 WHO 关于健康先后提出两个基本概念。1946 年世界卫生大会上提出 健康的概念为:不仅仅是没有疾病和身体虚弱,而是身体、心理和社会适 应,三方面的完美状态[4]。1986 年 WHO 在加拿大渥太华召开了第一届国 际健康促进大会(The First International Conference on Health Promotion) , 并签署了为实现“到 2000 年人人享有健康” (Health for All by the year 2000 and beyond ) 的 健 康 促 进 渥 太 华 宪 章 ( The Ottawa Charter for Health Promotion) 。 该宪章提出: 健康是日常生活的可支撑条件, 并非生活之目的; 健康是一个积极的概念,注重社会和个人的资源以及个人躯体的能力。良 好的健康是社会、经济和个人发展的主要资源,是生活质量的一个重要方 面[8]。第一个概念在全世界已得到普遍接受,并促进了医学模式由生物医学 模式到生理-心理-社会医学模式的转变[9]。第二个概念把健康视为一种资 源,更加强调了健康的实用价值和意义。 2009 年世界著名医学期刊 Lancet 编辑部发起题为“什么是健康?人的 适应能力”的讨论,探讨了健康的概念、维度[10]。随着生物医学科学的发 展,尤其是基因研究的深入,完全没有健康风险或者说完全健康的人是不 可能存在的。健康的维度不因仅包含生物、心理和社会适应三个维度,至 少应扩展以下两个维度。第一,人类健康与整个地球生物的健康密切相关。 人类与地球上其他生物之间存在密切的联系,不是生存在一个生物真空中。 第二,健康应包含非生物领域。生物健康离不开与非生物领域间和谐、稳 定的物质交换和相互作用;人类健康是建立在整个地球系统“健康”的能 量交换的基础上的;生存在一个不健康社会中的人是不可能健康的。 法国 Georges Canguilhem 医生 1943 年在 《正常与病态》 (The Normal and-15- 第四军医大学博士学位论文the Pathological)书中提出:健康是人对其所在环境的适应能力。健康不是 一个固定概念,随着环境的改变,对每个个体都是不同的。Canguilhem 医 生对健康的定义不仅包含了生理、心理和社会适应方面,还包含了生物和 非生物环境。按照该定义,健康不再由医生定义,而是由每个人根据自己 的需要定义。医生的作用是帮助个体去适应其独特的环境,这就是“个体 医疗”的概念。健康是一个很难定义却又能激发人想法的概念。采用适应 能力来代替健康的概念,可为医学的发展提供一个更富有人性、更令人欣 慰、更富有创造性的方案,且每个人均可参与其中。 1.2 自评健康 自评健康,又称自测健康、自感健康,是个体对其健康状况的主观评 价和期望,由 Suchman 等在 1958 年提出[9]。很多研究者认为:自测健康是 一种最常用的可获得个体全面健康状况的测量方法,它基于个体在对自身 生理、心理、社会适应等方面的认识,将主观和客观的健康信息融合在一 起,形成对自身整体健康状况的认识,是反映目前健康状况和预测未来健 康状况非常好的指标。国际标准化组织( International Organization for Standardization,ISO)发布的标准“卫生信息学――健康指标概念框架” (ISO/TS2)将自评健康作为概念框架中健康状况(health status) 维度的指标[11]。 美国健康调查(National Health Interview Survey,NHIS)包含自评健康 问题:平时,您认为您的健康是 ?非常好、很好、好、一般、差,得分依次为 1-5 分。对 1129 名慢性病人测试得分为 3.29 ± 0.91( x ± sd ) ,重 测信度为 0.92(样本量=51)[12]。加拿大全国健康调查中自评健康问题和美 国相同,2005 年 60%的调查者认为自己健康是非常好或很好。一般年龄越 大健康状况越差,若要比较不同年份人群的自评健康,需对年龄标准化, 不能直接比较。经年龄标准化后,加拿大自评健康状况为一般或差的比例 由 1995 年 10%降低为 2005 年 7%,说明人群健康水平的提高[13]。中国第四 次国家卫生服务调查也包含自评健康项目,与美国不同,采用百分制, 0-16- 第四军医大学博士学位论文代表最差健康状况,100 代表最好。 自评健康具有较高的可靠性和稳定性,且费用不高,是一种易于理解 和实施的健康测量方法。虽然自评健康已广泛应用于流行病学、社会医学、 老年病学等领域,但自测健康的作用和重要性仍存在争议[5]。有学者认为由 于某些疾病潜伏期的存在,自评健康不能预测未来疾病。某些特殊人群, 如老年人,健康状况经常变化,单独采用自评健康不能充分预测未来健康 状况。有学者提出自评健康虽然是一种较容易获得反映整体健康状况的指 标,但文化背景和种族对自评健康得分的影响不容忽视。我国学者对自评 健康的研究起步较晚[14]。许军等人(2002 年)基于 WHO 的健康概念,从 生理、心理和社会适应三个维度设置健康评价问题,建立了自测健康评定 量表(SRHMS) ,评价了量表的信度、效度[15]。 1.3 健康测量维度 健康是相互依赖的多维度结构,随着对健康研究的深入,健康测量维 度已从 WHO 提出的 3 个发展为今天的 7 个[16\19],具体见图 1。图 1 健康测量维度图(七维)-17- 第四军医大学博士学位论文(1)躯体维度(physical dimension)是指能够维持健康的生活质量, 保证在躯体无疲劳和无压力情况下完成日常活动的能力。躯体健康反映身 体的整个状态,行为方式对躯体健康非常重要,保持健康生活习惯(定期 检查身体、平衡饮食、积极锻炼等) 、摒弃不良生活习惯(抽烟、饮酒等) 有助于保持理想的躯体健康。 (2)智力维度(intellectual dimension)是指学习技能和知识提高健康 生活的认知能力。智力健康反映创造性和决策的洞察力。对新知识的渴望、 提高技能、追求挑战、终身学习,有助于提高智力健康。 (3)情绪维度(emotional dimension)是指接受和应对自身和其他人 情绪的能力。情绪时刻影响着几乎健康的全部方面。不良情绪:无助感、 抑郁、焦虑,甚至是自杀倾向,严重影响健康。积极认识并与他人分享恐 惧、悲伤、压力、喜悦、爱、期望等情绪,有助于保持情绪健康。 (4)社会维度(social dimension)是指与他人建立并维持令人满意的 社会关系的能力。被社会认可与情绪健康有关。具有良好的沟通技巧、尊 重自己和他人,建立并保持与家人、朋友和同事的良好关系有助于社会健 康。 (5)精神维度(spiritual dimension)是指实现生活平静、和谐的能力, 也可翻译为心灵维度。精神健康涉及价值观和信仰,诠释了生活的目的和 意义。不同个体对精神健康的理解不同,精神健康通常指个体价值观和行 为的统一,保持自身和与他人的一种和谐状态,平衡自身内在需要。精神 维度与我国学者提出的“四信” (信仰、信念、信心、信任) “思想境界” 类似[19]。 (6)职业维度(occupational dimension)是指在工作中实现个体价值, 并保持生活平衡的能力。职业健康反映了个体工作和休闲时间的平衡、处 理工作压力、与同事关系的状态。期望在所在事业中做出贡献,推动所在 组织、社会发展有助于职业健康。-18- 第四军医大学博士学位论文(7)环境维度(environmental dimension)是指认识到保护空气、水、 土壤等环境是人类责任的能力。保护家园、社区、地球环境,实现人与环 境的和谐发展,降低环境对健康负面影响是环境健康的核心。 1.4 个体主观健康测量 2009 年 Lancet 编辑部发起题为“什么是健康?人的适应能力”的讨 论,探讨了健康的概念、维度,认为健康不仅包含了生理、心理和社会适 应方面,还包含了生物和非生物环境。健康不是一个固定概念,随着环境 的改变,对每个个体都是不同的,强调医生的作用是帮助个体去适应其独 特的环境。基于个体适应能力测量个体健康,将成为未来健康测量研究的 热点问题和发展方向。目前,健康不仅仅指没有疾病,更加强调个体履行 日常活动能力,社会适应能力和生存质量,更加强调个体的健康状况。出 于简便性和经济方面考虑,很多个体健康测量依赖于个体口头报告(verbal report) 。 个体主观健康测量 (subjective health measurements) 具有以下优点: (1) 原有健康测量大部分基于疾病统计和体格测量,主观健康测量更关注生存 质量,拓展了健康测量的维度。 (2)主观健康测量能反映诸如疼痛、痛苦、 抑郁等个体感受,而这些感受很难单纯依靠体格或实验室检查确定。 (3 ) 主观健康测量属于无创性测量,也不像实验室检查那么昂贵,能反映个体 是否需要医疗服务、总体健康状况是否良好等信息。 (4)主观健康测量一 般采用定量的标准化计分。当然,主观健康测量也存在一些缺点: (1)主 观健康测量来自个体回答,存在较大的偏倚(bias) 。 (2)主观健康测量一 般用于抽样研究,不像有些客观健康测量指标,如死亡率,来自全人口普 查。主观健康测量需要每个个体回答,普查难度较大。 在二次世界大战期间,抽样技术和数据统计分析技术的发展,使主观 健康测量指标逐渐被人们接受。二战期间,需对大量入伍青年进行体格和 心理筛查,促进了个体健康测量的发展和标准化。战争期间,研制的军人-19- 第四军医大学博士学位论文职业个体健康筛查量表影响了战后量表的研制[20],尤其是对个体健康完好 状态量表的开发。抽样技术在医学中的运用,使得选取代表性人群进行个 体健康测量推断人群主观健康情况成为可能。此后,统计分析和计算机技 术可有效的降低个体健康测量引起的偏倚及混杂,方便主观测量数据的录 入和统计学分析。 1.5 主观健康测量的理论基础:精神物理学和心理测量学 与传统精确科学研究不同,主观测量没有利用特殊的测量工具,可称 作是一种粗略的估计测量。确实,很多健康测量很粗略,仅将数字(得分) 分配给定性的主观判断结果。为了阐述主观健康测量的科学基础,需要理 解精神物理学(psychophysics)和心理测量学(psychometrics)相关内容。 这两个学科主要研究为主观判断分配数值(赋值)的问题。 探讨主观判断是测量的有效方法属于精神物理学的研究范畴。心理测 量学在发展过程中吸收了精神物理学原理,同时主观健康测量的发展借鉴 了很多心理测量学的方法。精神物理学研究人对物理现象或物理刺激(如: 一段绳子的长度、声音的大小)的感觉并对其做出判断的模式。简单的说: 精神物理学研究人作为测量工具的特性。 Gustav Fechner(1860)出版了《Elemente der Psychophysik》 ,最早研 究了物理刺激与人的感觉之间关系,建立了基于“最小可感觉差异”对人 的主观判断进行赋值的方法,得出了物理刺激强度与人感觉之间存在对数 关系的准则。直到 1962 年,Stevens 用指数关系准则取代了 Gustav Fechner 准则,并宣布精神物理学研究获得了成功[21]。Stevens 认为指数关系准则表 明人能定量化估计感觉刺激,并用统一的公式表达了不同刺激与人感觉的 定量关系,公式如下:R = k × Sb其中,R 为人的定量化感觉,k 为常数,S 为刺激的强度,b 为指数。b 的区间为 0.3-1.7。当 b 为 1 时,刺激和人的感觉为线性关系。例如:人对-20- 第四军医大学博士学位论文2cm 长度的感觉是对 1cm 长度的感觉 2 倍。多种研究证明了此公式的正确 性,通常人感觉预测结果与实际仅有 2%的误差。 以上精神物理学研究结论,对主观健康测量非常有意义:在统一的模 式下,人能对主观现象进行定量化估计,即使有些现象比较抽象;而有些 物理现象或物理刺激比主观健康测量的对象还要抽象。效度实验已证实人 对长度的感觉的指数 b 为 1,即存在线性关系,所以可以用数轴(0-10)来 测量患者疼痛的程度或快乐的程度。 精神物理学所研究的物理刺激均能客观测量,而健康测量对象不能客 观测量。心理测量学采用精神物理学研究方法,对不能客观测量的现象进 行定量化的主观测量。以上精神物理学和心理测量学研究内容,奠定了主 观健康测量的科学理论基础。 1.6 主观健康测量的定量化估计 常用的主观健康测量定量化估计方法有:计分方法(scaling methods) 、 心理测量学方法(psychometric methods) 。 1.6.1 计分方法 “您认为您整体的身体健康状况能得 分。100代表最好健康状况、0代表最差。”是一种最简单的健康计分方法。许军等人(2002年)建立的 自测健康评定量表(SRHMS)采用0-10的坐标轴直接将每个问题转化成得 分。有学者认为以上方法被调查者很难估计具体分值,采用描述性的词语 更易于回答。 如: “与同龄人相比, 您认为您整体的身体健康状况如何? □ 非常好 □ 很好 □ 好 □ 一般 □ 差”。健康的定量化估计不仅包含为 问题的选项分配分值(得分) ;若量表(问卷)包含多个维度,还需为各维 度设定权重,最后产生健康指数。 无论健康计分方法多么复杂,最终分值(得分)有以下三种类型: (1) 分类分值 (nominal or categorical scales) 此类分值的目的是分类, 作为某种类别的标记(如:1=阳性,0=阴性) ,可任意分配,不能从相对大-21- 第四军医大学博士学位论文小得到任何信息。可接受的数学表达式为:A=B或A≠B。 (2)等级分值(ordinal scales)此类分值的目的也是分类,与分类分 值不同,分值大小反映测量属性程度的大小(如:1=差,2=一般,3=好) 。 可接受的数学表达式为:A&B&C。Bradburn和Miles(1979)总结了此类计 分方法的两大缺陷[22]:①等级分值的大小不是绝对的。不同背景的人描述 性词语用法不同,“一般”对不同人含义不同,但此时等级分值是相同的。 ②各等级分值间的差值是没有意义的。如:“一般”变为“好”,分值由2 变为3;与“差”变为“一般”,分值由1变为2,差值均为1,但意义不一 定一致。因此,评价某种处理效应采用治疗前后等级分值的差值作为指标 并不合适。这并不意味着等级分值不合适加、减运算,相反实际应用中等 级分值常做加、减运算。有学者对此提出了质疑[23],但也有学者认为因此 产生的误差很小。等级分值直接相加可能会得出错误结论。针对此问题, 学者提出了很多精确估计“描述性词语”(等级)选项分值的方法。Cox 和Wermuth(1994)对等级选项线性计分方法进行了综述[24]。Georg Rasch (1980)提出的项目反应理论(item response theory,IRT)可将等级选项 分值转化为计量分值,现已广泛应用于健康测量领域[25]。 (3)计量分值 不同与等级分值,计量分值可做加、减运算。问题的 计量分值范围内,变化一个单位分值均相等。 1.6.2 心理测量学方法 心理测量学对问卷(量表)的定量化估计方法可以分为两类:比较技 术 (comparative techniques) 和大小估计方法 (magnitude estimation methods) 。 Thurstone提出的“相等出现间隔”计分方法(“Equal-Appearing Intervals” scaling method)是最常采用的比较技术。此方法基本过程如下:选取一个 样本,可为病人、专家或两者的组合,让其判断各种选项的大小,并排列 顺序。如判断描述疼痛程度的词语:疼得让我不能入睡,痛得让我心烦气 躁,需要吃药控制我的疼痛,……。每个选项的计分为顺序号的中位数。-22- 第四军医大学博士学位论文当选项的顺序号离散程度很大时,说明该选项表述不明确,应删除。如前 所述,人能对主观现象进行定量化估计。大小估计方法选择样本人群,在 没有任何限定条件的情况下,让其判断各种选项相对大小。此方法可快捷 地为选项分配比值型的分值,常用于经济学量表,在健康测量量表计分中 应用较少。 心理测量学定量化估计方法在很多文献中均有表述。采用这些方法对 选项计分,编制问卷(量表)中需要做大量的工作。但是,有些研究表明 选项加权得分(心理测量学定量化估计方法)的结果与选项未加权得分是 一致的,两种得分的相关系数在0.95-0.98间。也有学者提出:心理测量学定 量化估计方法对于量表选项较少且含有多个维度时特别有效。当健康测量 量表超过20个问题,并测量同一维度时,选项加权得分不一定会对测量结 果产生较大影响。 与心理学研究类似, 健康测量, 尤其是健康相关生存质量 (health-related quality of life, HRQOL)的测量,含有诸多维度,需要各维度单独计分。心 理学研究一般假定同一维度下选择了某一极端选项,意味着同时选择了该 问题表达较弱的选项,而健康测量中情况要复杂的多。例如:抑郁的调查, 不同的人抑郁表现不同,严重的抑郁有自杀倾向的人并不一定表现出轻微 的抑郁症状。另外,症状的多样性并不一定说明抑郁的严重性。因此,最 好能对含有多种维度的健康量表统一分析。 不同于其他方法为每个问题分配分值,以反应为中心的方法对整个量 表进行分析,如:Guttman’s方法、心理量图分析(scalogram analysis) 。在 Guttman’s方法的基础上,Georg Rasch(1960)提出了项目反应理论,又称 为潜在特征分析(latent trait analysis) ,可用于整个量表或问卷的分析[26]。 目前,共有四类潜变量模型[27]:因子分析(探索性和验证性因子分析) 、潜 在特征分析、潜在剖面分析、潜在类别分析。四种模型的相关关系和开创 人见表1。-23- 第四军医大学博士学位论文因子分析是发展最早的潜变量模型,显变量和潜变量均是连续变量, 其余三个潜变量模型均涉及分类变量。潜在特征分析最早用于能力测验的 试题分析。Yongwen Jiang等(2009)采用项目反应理论分析了健康相关生 存质量与健康危险因素间的相关关系[28]。表1 不同类型的潜变量模型关系及开创人 潜变量 分类 潜在类别分析 latent class analysis 分类 Lazarsfeld 和 Henry (1968) Goodman (1974) Clogg(1981) 潜在特征分析 latent trait analysis (又称为item response theory) 连续 Richardson (1936) Lawley (1943) Georg Rasch (1960) Haberman (1974) 潜在剖面分析 latent profile analysis Gibson (1959) Lazarsfeld 和 Henry (1968) Rost (1985) 因子分析 factor analysis (含EFA和CFA) Spearman (1904) Thurstone () Joreskog (1967) 显变量 连续2 健康风险评估2.1 健康风险评估国内外研究现状 二战后,随着生物医学技术的飞速发展,发达国家有效地遏制了传染 病对人类健康的威胁,大大延长了居民平均寿命,实现了人们生活由温饱 向小康的转变;同时生活和工作方式也发生了质的变化,一些与人们社会 生活紧密相关的疾病,如心脏病、恶性肿瘤、中风,取代了传染病和感染, 成为影响人类生存与长寿的最主要敌人,也导致了发达国家医疗经费飞速 上涨。-24- 第四军医大学博士学位论文在此背景下,美国 Robbins LC 医生 20 世纪 60 年代创立了预测医学 (prospective medicine) ,首次提出了健康风险评估的概念,建立了弗莱明 翰 (Framingham) 心脏病预测模型, 为社区医生开展健康教育提供了支持[7]。 接下来的 10 年,美国疾病控制中心和加拿大卫生与福利部组织医学专家、 流行病学专家、医学统计学专家,制定了健康风险评估表,将各种不同的 危险因素和相关疾病罗列在一起,计算个体不同程度的危险因素对于主要 疾病死亡率的影响。20 世纪 70 年代,随着计算机技术的发展,美国和加拿 大总结了 10 年来健康风险研究的成果,研发了第一代美国成年人健康风险 评估软件,Centers for Disease Control/Health Risk Appraisal (CDC/HRA)。 美国第一代成年人健康风险评估软件可计算不同性别、种族、年龄的 26 种主要疾病及未来 10 年总体的死亡率[29]。 在此基础上, 根据个体的生理 指标、环境暴露因素、心理因素、家族及个人病史、饮食习惯、生活方式 等,分别计算 26 种主要疾病的估计死亡率,将其相加得到总体死亡率。第 一代风险评估软件的关键指标为:实际年龄、健康年龄、可达最低年龄。 通过计算健康年龄,能帮助公众认识个人可控制的健康风险因素,增强自 我保健意识,选择健康的生活方式,保持健康的心理状态,提高自我健康 管理的意识。Foxman 和 Edington(1987)为了评估第一代风险评估软件的 可靠性,比较了某社区 3135 人
年预测死亡率和实际死亡率,认 为第一代健康风险评估方法可用于识别健康风险高危人群[29]。此研究采用 了 31 个变量(项目) ,具体见表 2。 20 世纪 80 年代,美国推出了用于个人电脑的第二代健康风险评估软 件,对第一代软件进行了修改和升级,风险评估的疾病种类上升到 44 种[6,?30]。伴随着美国第一、二代健康风险评估软件的研究和推广,发达国家(如美国、加拿大)造就了一批以健康风险评估为基础,开展健康管理、健康 促进活动的公司和研究机构,如美国密西根大学健康管理研究中心[31]。20 世界 80 年代,美国大部分健康风险评估机构、健康管理公司,为企业提供-25- 第四军医大学博士学位论文服务,以企业员工健康风险评估为基础,以健康教育、健康促进为手段, 以遏制企业医疗卫生费用飞速上涨和提高企业员工生产力为目的,健康管 理在企业和事业单位蓬勃发展。当然,这与美国疾病预防控制中心最初期 望的,健康管理在社区里广泛开展,不相符合。表2 编号 01 02 03 04 05 06 07 08 09 10 11 变量 用药/治疗史 驾车里程 安全带使用 身体活动水平 一般健康状况 生活满意度 社会支持 睡眠状况 经济损失/灾祸 见证/卷入暴力事件 危险行为 CDC/HRA 用于预测死亡率的 31 个变量 编号 12 13 14 15 16 17 18 19 20 21 22 变量 巴氏涂片检查 乳腺癌家族史 乳房自我检查 吸烟情况 饮酒情况 心脏疾病家族史 糖尿病家族史 糖尿病 直肠症状 肺部疾病 子宫切除手术史 编号 23 24 25 26 27 28 29 30 31 变量 性别 种族 年龄 身高 体重 收缩压 舒张压 胆固醇水平 婚姻状况20 世界 90 年代以前,发达国家健康风险评估主要针对单纯疾病死亡 率。随着人们对健康概念认识的深入,目前健康风险评估更大程度上针对 疾病的患病率和整体健康。以美国密西根大学健康管理研究中心的健康风 险评估系统为例,其问卷涉及的健康问题更加广泛、风险因素问题更加深 入。个人健康风险评估报告也以健康得分或风险得分取代了以往的估计年 龄、健康年龄和可达到最低年龄等指标[32]。健康(风险)得分是反映个体 健康行为、疾病患病(死亡)风险及其参与预防措施程度的指标。与第一、 二代健康风险评估相比,现在美国健康管理市场流行的健康风险评估,更 具个体性、可比性、可行性、教育性。 发达国家越来越多的企业和事业单位依托健康管理机构,以健康风险 评估作为基础措施,开展健康管理。通过风险评估,健康管理机构对中高-26- 第四军医大学博士学位论文危员工的健康危险因素进行追踪干预;对低危员工提供健康促进的资源, 防止疾病发生。健康管理公司不仅为个体提供健康风险评估报告,也为企 业和事业单位提供员工的健康状况总结报告,实现对所有员工群体健康的 监控。 近年来,我国也遇到了发达国家二战后的问题:与环境、生活习惯和 饮食密切相关的恶性肿瘤、心脏病、脑血管病等成为危害人们健康的主要 疾病;医疗经费飞速上涨。国家期望采用全民健康管理,提高人民的健康 水平、遏制医疗经费的过快增长。但是,我国健康管理相关研究起步较晚, 健康管理理念与发达国家差距很大[3]。虽然我国健康管理机构已有 5000 多 家,但其中多数仅从事体检。而发达国家健康管理机构所开展的以健康风 险评估为基础的大规模体检活动,一般限于测量身高、体重、血压、胆固 醇和血糖。国内健康管理机构一般不进行健康风险评估,仅提供若干固定 搭配的“体检套餐”,体检缺乏针对性,造成医疗经费的浪费。通过文献 检索未发现,国内学者己开发出适用于国人的健康风险评估系统及相应的 健康风险模型。 为了实现依托健康管理提高人民的健康水平、遏制医疗经费过快增长 的目的,依据对健康概念的新认识,研发一套适用于国人健康风险评估系 统,建立简便有效的健康风险模型,并与目前国内健康管理机构开展的体 检活动相结合,已成为一项亟待解决的问题。 2.2 健康风险模型的计分方法 健康风险评估主要有两大用途:一是了解人群的一般健康状况,为制 定相关医疗政策提供信息;二是识别健康高风险人群,纠正不良生活方式, 降低健康风险。上世纪80年代,美国公共卫生杂志编辑Fielding便呼吁提高 健康风险评估的质量,要求流行病和卫生统计学家开展评价健康风险模型 的研究[33]。 Smith KW等(1987)评价了41种冠心病风险模型的效度,将健康风险-27- 第四军医大学博士学位论文模型计分方法分为5类[34]: 以每10万人死亡率计分、 以每10万人患病率计分、 以全部心脏疾病风险计分、以期望寿命计分、以一般健康状况计分,具体 见表3。从表3可以看出采用第三类和第五类计分方法的冠心病风险模型共 22种,占52.38%。Smith KW等人总结的第三类和第五类方法即为主观健康 测量的定量化估计的“计分方法” ,成为近年来流行的健康风险评估模型计 分方法。表3 计分方法 n(%) 以每 10 万人 死亡率计分 14(34.15) 5 类 41 种冠心病风险模型计分方法 简介 以每 10 万人未来 10 年心 脏病死亡率对风险因素各 水平计分,然后将各水平 分值相加或相乘。 以每 10 万人 患病率计分 2(4.88) 以每 10 万人未来 8 年心脏 病患病率对风险因素各水 平计分,然后将各水平分 值相加或相乘。 以全部心脏 疾病风险计分 8(19.51) 不以概率计分,而是按照 风险水平由低到高计分, 然后将各水平分值相加。 风险因素包含全部心脏疾 病因素。 以期望寿命 计分 3(7.32) 以一般健康 状况计分 14(34.15) 以期望寿命替代死亡(患 病)风险,作为健康分析 评估结果。 与以全部心脏疾病风险计 分类似,但计分因素仅包 含冠心病风险因素。 与以全部心脏疾病风险计分相同。 计算复杂。 计算方法简单。得分越高说明健康风险越 大。此类计分方法为近年来流行的健康风 险评估模型计分方法 优点 / 缺点 由 HRA 权威 Robbins 和 Hall 提出, 早期健 康风险模型广泛使用。但各风险水平分值 因是概率相加或相乘缺乏理论依据,且没 有考虑因素间相关性。计算复杂。 需要大规模队列研究分析结果,如 Framingham 模型。计算复杂。2.3 健康风险模型效度和信度评价方法-28- 第四军医大学博士学位论文效度(validity)是指测量指标或测量结果在多大程度上反映了事物的 客观真实性,说明数据的准确性。常用的效度评价方法有表面效度、内容 效度、平行效度、预测效度、结构效度[35]。 信度(reliability)是指在相同条件下,对同一客观事物重复测量若干 次,测量结果的相互符合程度,说明数据的可靠性。常用的信度评价方法 有:客观信度、精确信度、和谐信度、重测信度[35]。 Smith KW 等(1987)评价了 41 种预测冠心病风险模型的效度[34]。该 研究从 Framingham 心脏研究调查的 3604 人(男性 1564 人、女性 2040 人) 随机抽取了 240 人(男女各 120 人) ,按照 1956 年基线数据计算 41 种风险 模型得分,并与 1966 年研究终点冠心病发病情况进行相关性分析,比较 41 种风险模型的效度。该研究确定了著名的冠心病风险模型:Framingham 模 型和 RFUP(risk factor update project)模型的有效性。 Yokoyama 等 (2009) 评价了食管和咽部肿瘤的健康风险模型的效度[36]。 该研究对 404 名 50-78 岁男性进行了中位时间为 5 年的随访, 以内窥镜检查 为金标准,确定了所提出健康风险模型的有效性。该风险模型包含以下风 险因素:ALDH2 基因分型、饮酒、抽烟、饮食习惯,5 个因素。ALDH2 为乙醛脱氢酶(aldehyde dehydrogenase) ,与体内酒精代谢有关。 国家“十五”攻关“冠心病、脑卒中综合危险度评估及干预方案的研 究”课题组(2003)提出了国人缺血性心血管病发病风险的评估方法,并 建立了简易评估工具[37]。 该研究以 1983 年中美心肺血管疾病流行病学合作 研 究 为 基 线 资 料 , 平 均 随 访 15.1 年 , 以 缺 血 性 心 血 管 病 ( ischemic cardiovascular diseases,ICVD)为预测变量,采用 COX 比例风险模型筛选 出 7 种独立风险因素, 并分性别建立了 ICVD 事件 l0 年发病危险预测模型, 见图 2。-29- 第四军医大学博士学位论文图2ICVD 事件 l0 年发病风险预测模型(男性)3 关联规则挖掘方法及其 HRA 应用3.1 数据挖掘和 CRISP-DM 标准模型 数据挖掘(data mining)是通过各种技术来识别隐含在数据中有价值的 信息[38,? 39]。通过数据挖掘提取的信息可应用于很多领域,如决策支持、预 测、预报和估计。数据挖掘是一门交叉学科,涉及数据库、统计学、人工 智能和机器学习等多个领域。数据挖掘利用历史数据产生模型,并用于预 测、模式识别等。数据挖掘主要分析方法有决策树、神经网络、聚类分析 (Kohonen、k-means 和两步法) 、判别分析、关联规则、粗糙集分析、支持 向量机等[38]。 数据挖掘是一项系统工程,挖掘过程需要遵循相应标准。SPSS 公司 Shearer 等人组成的数据挖掘特别兴趣小组 (special interest group, SIG) 1999 年提出了跨行业数据挖掘过程( cross-industry standard process for data mining,CRISP-DM)标准模型 1.0,见图 3[38,?40]。CRISP-DM 过程模型包含 业务理解、数据理解、数据准备、建立模型、模型评价和模型实施。六个-30- 第四军医大学博士学位论文过程顺序不是固定的,之间存在反复的情况。图 3 跨行业数据挖掘过程标准模型常用数据挖掘软件有 SAS Enterprise Miner、SPSS Clementine、IBM SPSS Modeler。SPSS 公司 1999 年收购了由 ISL(Integral Solutions Limited) 公 司 开 发 的 Clementine 数 据 挖 掘 工 具 平 台 并 重 新 整 合 和 开 发 。 SPSS Clementine 完全按照 CRISP-DM 设计,以数据流、节点方式构建数据挖掘 模型,建模过程不需编程。IBM 公司 2009 年并购 SPSS 后,在 Clementine 基础上开发了 IBM SPSS Modeler,目前最新版本为 14.1[41]。 3.2 关联规则挖掘概念及常用算法 关联规则挖掘(association rule mining,ARM)是发现在一个事务数据 库中事件同时发生规律的数据挖掘方法,目的是找出数据库中项集之间的 关联关系[38,?39]。Agrawal 等(1993)首先提出关联规则挖掘方法,用于挖掘 顾客交易数据库中项集间的关联规则[39,?42],并设计 Apriori 关联规则经典算 法,此后研究人员对关联规则挖掘进行了大量的研究。-31- 第四军医大学博士学位论文3.2.1 关联规则挖掘的基本概念 项目为数据库中不可分割的最小单元, 用 i 表示。 项目的集合称为项集。 设 I = {i1 , i2 ,L , im } 为所有项目的集合, D 为事务数据库, 事务 T 是一个项目 子集( T ? I ) 。每个事务具有唯一的标示 Tid。关联规则是形如 X ? Y 的蕴Y ? I 且 X ∩ Y = φ 。X 称为关联规则的前项 (antecdent) , 含式, 其中 X ? I ,Y 称为关联规则的后项 (consequent) 。 关联规则反映 X 中的项目发生时,Y中的项目也发生的规律。 关联规则 X ? Y 的支持度(support)是指事务集 D 中 X 和 Y 同时发生 的频率,即 D 中包含 X ∩ Y 的百分比,记为 support ( X ? Y ) 。support ( X ? Y ) = P ( X ∩ Y )关联规则 X ? Y 的置信度(confidence)是指包含 X 的事务中,出现 Y 的条件概率,记为 confidence( X ? Y ) 。confidence( X ? Y ) =P( X ∩ Y ) = P (Y | X ) P( X )关联规则挖掘需设定规则必须满足的支持度和置信度阈值,当support ( X ? Y ) 、 confidence( X ? Y ) 同时≥阈值时,认为关联 X ? Y 是强关联规则。阈值称为最小支持度(min_sup)和最小置信度(min_conf),前者表 示规则的最低重要程度,后者表示规则必须满足的最低可靠性。满足min_sup 的项集称为频繁项集(frequent itemset) 。关联规则挖掘可分为两个步骤: (1)按照 min_sup 设定,寻找频繁项 集; (2)按照 min_conf 设定,在频繁项集中产生强关联规则。3.2.2 关联规则挖掘的常用算法目前,关联规则挖掘的主要算法有 [38,? 39,? 41\43] : Apriori 算法、 GRI (generalized rule induction)算法、CARMA 算法等。-32- 第四军医大学博士学位论文Apriori 算法由 Agrawal 等(1993)提出用于挖掘单维、布尔型关联规则频繁项集。该算法要求关联规则挖掘的前项和后项均为分类变量,过程 分为连接步和剪枝步。Apriori 算法采用逐层搜索的迭代方法,利用第 k 项 集来寻找第(k+1)项集:首先寻找频繁 1 项集 L1;L1 用于寻找频繁 2 项集L2;L2 用于寻找 L3;……;直到找不到频繁 k 项集为止。具体 Apriori 算法步骤参见相关文献[38,? 43]。Apriori 算法虽然效率比较高,但存在两大缺点: 产生大量的候选集,多次重复扫描数据库。GRI 算法改进了 Apriori 算法,关联规则前项可为分类或连续变量,后项为分类变量。GRI 算法可从事务数据库中找到信息容量最高的规则。信 息容量采用指数衡量,该指数同时考虑支持度和置信度。J 值是 GRI 算法 的核心,采用交互熵的概念,见下式:J ( X | Y ) = P(Y )( P( X | Y ) logP( X | Y ) 1 ? P( X | Y ) + (1 ? P( X | Y ) log )) P( X ) 1 ? P( X )J 值反映了引入规则前项后,规则后项分布的变化。J 值越大,表明引入前项后,后项的分布与原始分布差异越大。GRI 算法在确定连续变量分割值 时,首先对连续变量排序,然后计算各取值做分割值下的 J 值,取 J 值最 大的变量值做分割值。GRI 算法虽能处理连续变量,但算法效率较其他算 法低。CARMA 算法由 Hidber(1999)提出,是一种可处理在线连续交易流数据的关联规则算法,可灵活设置支持度,仅需 1-2 次扫描便可得到结果。 与 Apriori 算法和 GRI 算法不同, CARMA 算法不需要设定关联前项和后项, 挖掘出的规则可包含多个后项,但该算法效率较低。Apriori 算法、GRI 算法、CARMA 算法在 SPSS Clementine 12.0 中均有相应的关联规则挖掘节点[38,?41]。 除以上三种关联规则算法外, 马修强 (2009) 总结归纳了基于 Apriori 算法改进提出的 sampling 算法、Partition 算法、fp-grouth 算法、Eclat 算法、DHP 算法等[43]。-33- 第四军医大学博士学位论文与传统统计方法相比,关联规则挖掘具有以下优点[38,? 41\43]: (1)不考 虑变量间相关性,已挖掘出的关联规则不受数据库中增加或减少变量的影 响; (2)变量可同时为自变量(前项)和反应变量(后项) ,研究者不需预 先设定反应变量,仍可得到有意义的规则; (3)关联规则挖掘针对变量的 某一取值,而不是变量,分析结果与传统统计分析方法存在较大差异,但 关联规则挖掘结果便于理解和解释; (4)可处理含有缺失值、弱相关的数 据。 3.3 关联规则挖掘方法在 HRA 中的应用 从数据库中挖掘关联规则问题已成为数据挖掘中最成熟、最活跃、最 重要的研究内容,引起了挖掘算法研究及其应用界的极大关注。目前,在 商业、金融、保险等领域关联规则挖掘应用广泛;国内外,关联规则挖掘 在健康风险评估(HRA)中的应用研究均处于起步阶段,近期相关研究如 下:Nahar(2009)采用 Apriori 算法、Predictive apriori 算法、Tertius 算法提取并验证了膀胱癌、乳腺癌、子宫颈癌、肺癌、前列腺癌、皮肤癌, 6 种肿瘤发病风险的关联规则,比较了 3 种算法的效率,结果表明 Apriori 算 法在挖掘肿瘤发病风险规则效率最高[44]。Karaolis(2009)利用关联规则挖 掘分析了冠心病事件的风险,风险因素包含 8 种临床因素(年龄、性别、 吸烟情况、收缩压、舒张压、高血压史、糖尿病史、家族史) 、6 种生化因 素 (胆固醇、 高密度脂蛋白、 低密度脂蛋白、 甘油三酯、 血糖) , 采用 Apriori 算法挖掘并评价了 3 种冠心病事件的关联规则[45]。Shin AM(2010)采用SPSS Clementine 12.0 对医院诊断为原发性高血压患者数据进行了关联规则挖掘,发现非胰岛素依赖型糖尿病 ? 原发性高血压(支持度=35.15%,置 信度=100%) 、脑梗死 ? 原发性高血压为强关联规则(支持度=21.21%,置 信度=100%)[46]。该研究表明了采用关联规则挖掘分析共患多种慢性疾病 关系的可行性。-34- 第四军医大学博士学位论文国内医学领域,关联规则挖掘方法主要应用于中医药研究,如中医症 候客观化研究、中药模式识别、针灸穴位选择、尤其是中药复方配伍规律 研究,在健康风险评估中的应用较少。马修强(2009)应用 SAS/EM 软件, 采用 Apriori 算法对胃食管反流病影响因素进行了关联规则挖掘分析,编写 了多项规则筛选 SAS 程序,结果表明关联规则挖掘可降低数据缺失值的影 响,发现胃食管反流病潜在影响因素,可为其他统计分析建模(如多水平 分析)提供依据[43]。4 项目反应理论及其 HRA 应用4.1 项目反应理论的发展史1904 年, Spearman 创立了经典测量理论 (Classical Test Theory, CTT) ,经过百年发展形成了完备的体系。针对 CTT 的不足和缺陷,众多学者通过 几十年的研究创立和完善了项目反应理论(Item Response Theory,IRT) 。CTT 的缺陷及 IRT 的优点教科书和文献上均有介绍[47],不再赘述。IRT 模型的发展主线有两条:一条是 Lord 和 Novick(1968)出版专著《心理测验 分数的统计理论》 ,阐述了两参数和三参数的正态卵形模型(normal-ogivemodel)和 Logistic 模型,并提出了 Logistic 模型的联合极大似然估计方法;另外一条是 Rasch(1960)提出的 Rasch 模型(单参数 Logistic 模型) ,并 给出了能力参数和项目参数的估计方法,其弟子 Anderson(1972)用似然 比检验了 Rasch 模型的拟合优度[47\50]。IRT 又称为潜在特征分析(latent trait analysis)与其他潜变量模型的关系见表 1。IRT 自创立以来,累计提出了 20 余种模型[47\50],重要 IRT 模型 概述如下: (1)Samejima(1969)建立了用于等级计分的等级反应模型(graded ,突破了原有 IRT 模型仅能分析两分类计分的局限性。 response model) (2)R. Darrel Bock(1972)提出了用于无序多分类评分的多分类模型 ,完善了多分类 IRT 模型。 (nominal categories model)-35- 第四军医大学博士学位论文(3)Benjamin Wright 及其弟子(1969)在 Rasch 模型的基础上提出了 多种 IRT 模型并编写了计算机程序:David Andrich(1978)建立了等距多 值评分的等级量表模型(rating scale model) ,Geoffery Masters(1982)提出 了 分 部 评 分 模 型 ( partial credit model ) ,并采用条件最大似然 (conditional-maximum likelihood)估计模型参数。 (4)Thissen 和 Steinberg(1984)建立了多重选项资料的多重选项计 分模型(multiple category scoring) 。 (5)N.D. Verhelst,C.A.W. Glas 和 H.H. de Vries(1993)改进了分部 评分模型提出了阶段模型(steps model to analyze partial credit) ,并采用边 际最大似然(marginal maximum-likelihood)估计模型参数。 (6)Gerhard Tutz(1990)提出了分析含有层次结构等级资料的序贯模 型(sequential models for ordered responses) 。 (7)Eiji Muraki(1992)拓展了 Masters 的分部评分模型,不再假定统 一的项目区分度参数,提出了广义分部评分模型(Generalized partial credit 。 model) (8)除以上 IRT 参数模型外,Robert J. Mokken 和 Ivo W. Molenaar 分 别对两分类和多分类资料提出了非参数模型( nonparametric models for 。 dichotomous responses,nonparametric models for polytomous responses) 以上 IRT 模型的具体理论知识和参数估计参见文献[51]。 随着计算机技术和统计软件的发展,IRT 大部分模型均可采用 SAS[28,?52]、SPSS[53]、IRT 专门软件实现。常用的 IRT 专门软件有:BILOG-MG 3、CATSim、CONQUEST 2.0、IRT DIF Analysis Tool、MSP、MULTILOG 7、 MULTISIM、PARDSIM、PARSCALE、ScoreAll 4、Xcalibre 4[54]。4.2 项目反应理论的数据模型及参数估计IRT 的中心特征是用数学函数来反映被试对测验项目正确反应概率(P(θ))与其潜在特征(θ)之间的关系[47\51],见图 4。该图为项目特征曲-36- 第四军医大学博士学位论文线(item characteristic curve,ICC) ,以潜在特征为横坐标,以项目正确反 应的概率为纵坐标。 P(θ)=0.5 所对应的 θ 取值为 b, 为项目的难度 (difficulty) 系数;θ 取值为 b 处切线斜率 a,称为项目的区分度(discrimination) ,a 越 大项目区分度越高;c 为被试猜对项目的概率,称为猜测(guessing)参数。图 4 项目特征曲线(ICC)4.2.1 数学模型 IRT 主要研究 θ 与 P(θ) 的数学函数,并用数学模型反映两者关系。 Birnbaum(1968)给出了统一的正态卵形模型、Rasch 模型、两参数和三参数模型的表达式: X ij 为被试 j 在项目 i 的反应,那么P ( X ij | θ j ) = pij ij qijX1? X ij(1)其中, X ij = 0, 1 为被试的反应,θ 为被试 j 的潜在特征, pij 为被试正确 回答项目 i 的概率, qij = 1 ? pij 。pij = P( X ij = 1 | θ j ) = ci + (1 ? ci )exp( Dα i (θ j ? β i )) 1 + exp( Dα i (θ j ? β i ))(2)-37- 第四军医大学博士学位论文其中,α , β , c 分别为项目的区分度、 难度系数和猜测参数; D 为常数 (1 或 1.7) 。当所有项目的 α j = α ,公式(2)为 Rasch 模型;当 D = 1.7 ,公 式(2)为正态卵形模型;当 c=0, D = 1 时,公式(2)为两参数 IRT 模型 (two-parameter IRT model,IRT-2PL) ,见公式(3)[52,?55]。P( X ij = 1 | θ j ) = 4.2.2 参数估计exp(α i (θ j ? β i )) 1 + exp(α i (θ j ? β i ))(3)IRT 数学模型中含有两类参数: 项目参数 (α , β , c ) 和潜在特征参数 (θ) 。常用的参数估计方法有三种:联合极大似然估计方法、边际极大似然估计 方法、条件似然估计方法。参数估计根据已知条件分为:项目参数已知条 件下潜在特征参数估计、潜在特征参数已知条件下项目参数估计、项目和 潜在特征参数的联合极大似然估计[47\49,?52,?55]。 本部分重点回顾三参数 IRT 模型 (three-parameter IRT model, IRT-3PL) 项目和潜在特征参数的联合极大似然估计[47\49,? 52,? 55]:假定共有 N 个被试、M 个项目,那么需估计 N 个潜在特征参数和 3M 个项目参数( α , β , c 各 M个) 。假定项目均为 0、1 计分,那么反应矩阵 X 共有 N 行 M 列。? x11 ?x = ? 21 ?L ? ? x N1 x12 x 22 L xN 2 x1M ? L x1M ? ? L L? ? L x NM ? LX = ( xij ) N ×M在各被试相互独立、同一被试对各项目反应相互独立的假定条件下, 反应矩阵 X 的似然函数为:L(θ1 ,Lθ N , α 1 ,Lα M , β 1 ,L β M , c1 ,L c M | x11 ,L x NM ) = ∏∏ Pij ij Qijx i =1 j =1NM1? xij(4)可简写为:-38- 第四军医大学博士学位论文L = ∏∏ Pij ij Qijx i =1 j =1NM1? xij将公式(2)带入公式(4) ,那么似然函数中含有 N+3M 个未知参数。 为进行参数估计,求公式(4)的对数似然函数:ln( L) = ln(∏∏ Pij ij Qijx i =1 j =1 N MNM1? xij= ∑∑ ( xij ln( Pij ) + (1 ? xij ln(Qij )))i =1 j =1(5)将对数似然函数分别对 N 个 θ 和各 M 个 α , β , c 求偏导,令其等于 0, 可得如下方程组:? N ? ∑ [( xij ? Pij ) Pij Qij ](?Pij i =1 ?M ? [( x ? P ) P Q ](?P ij ij ij ij ij ?∑ ? j =1 ?M ? ∑ [( xij ? Pij ) Pij Qij ](?Pij ? j =1 ?M ? ∑ [( xij ? Pij ) Pij Qij ](?Pij ? ? j =1 ?θ i ) = 0 (i = 1,L , N ) ?α j ) = 0 ( j = 1,L , M ) ?β j ) = 0 ( j = 1, L , M ) ?c j ) = 0 ( j = 1,L , M )(6)以上方程组可分为两部分:对潜在特征参数 θ 求导的 N 个方程;对项 目 参 数 求 导 的 3M 个 方 程 。 因 方 程 组 均 为 非 线 性 方 程 , 需 采 用Newton-Raphson 迭代算法求解,具体算法参加相关文献[47\49,?52,?55]。4.3 项目反应理论在 HRA 中的应用 随着项目反应理论模型研究和相关软件的编制,目前 IRT 在心理和教 育测量领域得到了广泛应用,如评价问卷的效度/信度、考试题库建设、测 验等值、计算机自适应测验(computerized adaptive testing,CAT)等研究 领域。Revicki DA 和 Cella DF(1997)将 IRT 应用于健康相关生存质量研 究,认为 IRT、题库和 CAT 是 21 世纪健康评估的发展趋势[56]。2004 年由 美国国家肿瘤研究所(National Cancer Institute,NCI) 、国家卫生研究院-39- 第四军医大学博士学位论文(National Institutes of Health,NIH) 、卫生与公共服务部(Department of 、药品信息协会( Drug Information Health and Human Services , DHHS )Association,DIA)共同举办了“基于现代测量理论和 CAT 的健康评估进展会议” , 会议的重点是基于 IRT 的个体自报健康测量结果 (patient-reportedoutcomes)新方法和新技术研究[57]。由此看见,IRT 在主观健康测量及健康风险评估领域的应用研究已成为热点。Cella D(2007)介绍了建立个体自报健康测量系统( patient-reported outcomes measurement system,PROMIS)的过程,提出了个体自报健康题库开发框架,题库项目采用 IRT 评价方法,CAT 构建个体自报健康问卷方 法[58]。 Hays RD (2007) 应用 MULTILOG 软件采用两参数 Logistic 模型 (两 分类和等级多分类)评价了含 15 题的生理功能量表,估计了各题的难度系 数和区分度,绘制了各题的项目特征曲线,证实了 15 题生理功能量表符合 单维项目反应理论[59]。Houseman EA(2007)认为心理和教育测量领域研 究样本量很大,能够保证 IRT 参数估计精度(IRT 需估计较多参数) ;而健 康测量领域研究样本量较少,参数估计误差较大;在此基础上提出了惩罚 ,采用惩罚最大似 项目反应理论模型(penalized item response theory model) 然估计(penalized likelihood)模型参数,降低了参数标准误,该研究为 IRT 应用于小样本健康测量的提供了理论基础[60]。Yongwen Jiang 等(2009)采 用项目反应理论分析了健康相关生存质量与健康危险因素间的相关关系[28]。Gilder DA(2011)应用 BILOG-MG 软件采用两参数 Logistic 模型(两分类)分析了过度饮酒与酒精依赖症状间的关系,估计了不同过度饮酒判 断标准下各症状的难度系数和区分度,最终确定了过度饮酒的判定标准为 “每月 8 次以上,男性 5 杯以上/女性 4 杯以上”[61]。Dewitt EM(2011)按 照 PROMIS 题库项目评价方法,通过 3048 名儿童调查对 70 道儿童生理功 能问题进行了项目评价,采用的 IRT 模型为 Samejima 等级反应模型,用MULTILOG 软件估计参数,最终筛选出 52 道有效问题,并构建了 8 道问-40- 第四军医大学博士学位论文题的简易儿童生理功能问卷[62]。目前,国外已将项目反应理论应用于构建 和修改个体自报健康测量量表[62,? 63]、评价人群间健康状况均衡性[64]、不同 健康测量问卷计分等值性问题[65]、题库项目的评价和筛选[58,? 59,? 62]、健康风 险评估[28,?61]等领域。 国内的项目反应理论主要应用于心理和教育测量领域,在健康测量和 健康风险评估领域中的应用较少,处于起步阶段。廖文力(2009)采用 IRT 对 自 编 中 医 健 康 状 况 量 表 进 行 了 项 目 功 能 差 异 分 析 ( differential itemfunetioning,DIF)[66]。庄昆海(2010)与廖文力的研究类似,评价了中医功能性胃肠病量表[67]。郭小玲(2010)采用 Samejima 等级反应模型筛选了 冠心病 PRO 量表的问题[68]。-41- 第四军医大学博士学位论文正文1 国人健康风险评估问卷的编制健康风险评估问卷是健康风险评估的工具。本部分参考了 10 份国际上 公认的健康测量量表等大量资料,采用我国相关卫生行业标准对问卷和选 项进行了标准化,编制了国人健康风险评估问卷(V1.0) (CHRAQ V1.0) , 并建立了自评健康基本数据集。1.1 条目池与数据标准编制国人健康风险评估问卷前,本研究调查了西安市某健康管理机构 和某三甲医院特诊中心,发现:两家机构均不提供健康风险评估服务;仅 提供若干固定“体检套餐”形式的健康检查;健康检查历史数据缺乏用于 健康风险评估的项目,如吸烟、饮酒情况等。此外,通过文献检索未发现, 国内学者己开发出适用于国人的健康风险评估问卷及相应的健康风险模 型。 为了采集完整的健康风险评估数据,用于建立健康风险模型,本研究 首先编制国人健康风险评估问卷。 健康风险评估是通过所收集的大量的个人健康信息,分析建立生活方 式、环境、遗传等危险因素与健康状态之间的量化关系,预测个人在一定 时间内发生某种特定疾病或因为某种特定疾病导致死亡的可能性,即对个 人的健康状况及未来患病或死亡危险性的量化评估。本研究确定了评估问 卷的内容结构包含以下领域和方面:个人一般情况、体格测量、生活方式、 饮食习惯、个人及家族健康史、精神压力、社会支持、健康意识、自报健-42- 第四军医大学博士学位论文康以及在职人员工作情况。 国人健康风险评估问卷条目池构建主要参考了 10 份国际上公认的健康 测量量表[69],见表 1-1。其中普适性生存质量量表 4 份,精神和抑郁量表 4 份,社会支持量表 1 份,日常生活能力量表 1 份。表 1-1 条目池构建参考国际公认健康测量量表 编号 量表名称 (作者,时间) Short-Form-36 Health Survey (Ware, 1990) 条目数 填写方式 (时间) 自填 (5C10 分钟) 自填 (3C4 分钟) 自填 自填 (10C20 分钟) 调查员 (2 分钟) 调查员 (5C15 分钟) 自填 (10C15 分钟) 自填 (8C10 分钟) 自填1362 3Short-Form-12 Health Survey (Stewart, 1987) EuroQol EQ-5D Quality of Life Scale (E}

我要回帖

更多关于 统计学se是什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信