Development and Statistical Analysis of Scale

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
1 计算机软件考试命题模式 计算机软件考试命题模式 张 淑 平 张 淑 平. 2  命题模式内容  组织管理模式 − 命题机构和人员组成 − 命题程序  试卷组成模式.
龙星课程—肿瘤生物信息学上机课程 曹莎
APA抑郁症治疗实践指南 APA(美国精神病学会)抑郁症治疗实践指南 此指南2010年5月批准,于2010年10月正式出版
第十二章 生命质量评价 (The Evaluation of QOL )
绩效考评表格设计 班级:15服务4班 姓名:杨冬茜.
初级会计电算化 (用友T3) 制作人:张爱红.
证券投资技术分析.
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
常用逻辑用语复习课 李娟.
糖尿病流行病学.
会计学专业基础课堂之 基础会计(初级会计) 安徽财经大学会计学院.
财务绩效评价计分方法 1、基本指标计分 财务绩效定量评价的基本指标计分是按照功效系数法计分原理,将评价指标实际值对照相应行业标准值,按照规定的计分公式计算各项基本指标得分。    (1)单项指标得分= 本档基础分 调整分 + 本档基础分=指标权数×本档标准系数 功效 系数 实际值-本档标准值 调整分=
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三篇 组织工作.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
内科护理学实验 1 血糖的监测与护理 实验学时:4学时 实验类型:综合性.
                                                                                                                                                                
第一节 旅游规划的意义和种类 第二节 旅游规划的内容 第三节 旅游规划的编制 第四节 旅游景区规划
Harvard ManageMentor®
Harvard ManageMentor®
Harvard ManageMentor®
Harvard ManageMentor®
第十章 方差分析.
2.1.2 空间中直线与直线 之间的位置关系.
第七章 参数估计 7.3 参数的区间估计.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
第一章 函数与极限.
C语言程序设计 主讲教师:陆幼利.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
网页设计与制作 —— 学习情境二:网页模板设计
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
Home Work 现代科学中的化学键能及其广泛应用 罗渝然(Yu-Ran Luo)
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
Harvard ManageMentor®
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
利用DSC进行比热容的测定 比 热 容 测 量 案 例 2010.02 TA No.036 热分析・粘弹性测量定 ・何为比热容
例题2-15讲解 主讲人 束美其.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
本底对汞原子第一激发能测量的影响 钱振宇
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
IT 方法 INTOSAI IT 审计培训.
MTOR典型案例征集大赛 标题: 医院: 科室: 姓名: 邮箱: 2015 年 月 日.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

Development and Statistical Analysis of Scale 第二十四章 量表研制 与量表资料的统计分析方法 Development and Statistical Analysis of Scale

Content Introduction Development methods of scale Evaluation methods of scale Statistical analysis of scale

第一节 概述 一、量表的基本概念 量表(scale)是由若干问题或自我评分指标组成的标准化测定表格,用于测量研究对象的某种状态、行为或态度。量表又常称为测量工具(instrument)。 在医学研究中,许多疾病状态是可以准确测量的,如原发性高血压患者的血压,白血病患者的白细胞数,乙型病毒性肝炎患者的病毒抗原。但也有许多疾病状态是无法精确测量的,如疼痛、失眠、心理压抑、认知障碍、生存质量、生活自理能力等,在医学实践中只能对通过测量这些状态的某些表征或通过研究对象的自我主观感受来间接地测评,这时候量表就成为最常用的和可行的工具。

例24-1 如何评价治疗疼痛的效果,即如何测量疼痛的程度 ? 例24-1 如何评价治疗疼痛的效果,即如何测量疼痛的程度 ? 将病人自我测评疼痛的程度、病人疼痛时的面部表情、皮肤湿润程度、肌肉紧张程度、脉搏等多项测量指标组成一个测量表,通过统计分析和测评确定各指标的权重,对各指标作标准化后,就构成一个疼痛测评量表。

量表指标(或问题): 多项指标或问题中的各项涉及总目标的某些方面,因此又可以将其分成若干领域(又称维度—domain),显然量表的测评结果具有多维性。量表的指标和问题可以是定性的,也可以是定量的,但最终都会得到一个总的定量的评分。该总评分将定量地描述研究对象的测评特征,并且方便进行对象间的比较。因此量表测评具有定量化特性。 各项指标或问题都必须标准化和规范化,包括测量手段、过程、记录结果的形式,问题的询问方式、语气、答案选择等,都采取统一、固定的格式。 各指标(项目)的权重和总分的计算作出明确规定。 一般量表研制过程,还做出了正常参照人群的量表常模,即标准值,供使用时参考。因此量表具有标准化的特性。

获得指标值的方式: 1) 通过测量研究对象的某些特征而获得的定量数据 2) 通过询问获得研究对象对某些感觉、特征、态度和行为的定性或定量的答案。

多数与调查表相似,都是问卷(questionnaire)的形式,但量表与调查表仍有区别。 量表的结构设计形式: 多数与调查表相似,都是问卷(questionnaire)的形式,但量表与调查表仍有区别。 调查表--可以包含完全不同的独立的内容,用于评价不同的指标。如调查表可以询问调查对象的吸烟史、生育史、体育锻炼情况和饮食嗜好,这些内容可能是完全独立互不相关的,用于评价研究人群的不同特征。 量表--是用于描述研究对象的一个特征,虽然量表用多个条目(问题)从各个方面来描述该特征,但各条目一般都是相关联的。例如评价医院医疗服务满意度的量表,可以包含对医院诊疗程序安排、医生诊疗的水平和态度、护士服务和态度、诊疗收费等各方面的问题,但这些问题都是围绕着一个核心,就是医院医疗服务提供的质量,因此各指标都是关联的。 量表和调查表的设计和质量考核时考虑的问题和评价指标有所不同。

二、量表的适用范围 适合评价无法直接作客观定量测量的指标。例如许多生理、心理和社会特征属于这种类型。量表的适用范围可以具体地分成以下几种情形: 1.无法直接测量的指标,如临床医学研究中常见的病痛评价指标,包括疼痛、失眠、疲乏、活动能力障碍、残疾等,特别是近几十年来发展的评价健康水平的生存质量(quality of life)。 2.抽象的概念和态度,如社会医学中常常涉及的指标,包括幸福感、满意度、社会交流能力等。 3.复杂的行为或神经心理状态,如心理学研究中的儿童多动症、认知障碍、阅读障碍、运动协调性低下、情绪抑郁、焦虑症等。

三、量表评价的优缺点 优点:量表测评具有客观性强,可比性好,程序标准化,易于操作的优点。 缺点:受研究对象个体差异影响大,量表制定要求高,如果量表设计有缺陷,可能导致结果偏倚。

第二节 量表的研制方法 一、量表的结构特点 量表 由若干领域组成--称子量表或亚量表。领域是指测评特征涵盖的内容或层次 第二节 量表的研制方法 一、量表的结构特点 量表 由若干领域组成--称子量表或亚量表。领域是指测评特征涵盖的内容或层次 每个领域又可由若干个方面(facet)组成--每个方面实际上是与测评特征有关的项目 每个方面可包含若干条目(item)--条目实际上就是问题,对测评特征的某方面(项目)从不同的侧面提出问题或进行测量,了解被测者的状况 例如 医院医疗服务满意度量表就应该包含最基本的服务态度、医疗水平和收费等领域。服务态度的领域中包括挂号过程、就医过程、检查和治疗过程、取药过程等方面。其中就医过程方面中的条目可以包含就医指引的服务、医生接诊的态度、诊室的环境等条目。

二、量表的编制原则 ——理想的量表:准确地测定目标特征,获取可靠的资料。 (1)适合性原则:设计量表时要考虑研究的需要,同时也要考虑被调查者的实际情况。所以,量表设计的一个首要原则就是要从被调查者的角度出发,为他们着想,设计适合他们的问题,尽可能地减少他们在填答问题时的困难与麻烦,减少他们填答问题所需要的时间和精力。 (2)有效性原则:量表的问题必须围绕研究课题和研究假设进行设计,凡是对于研究课题及其理论假设来说是多余的问题,都必须删去,可有可无的问题,一律不列入问卷,不知道以后如何分析的问题,也不要提出。设计者对问卷的设计要有一个总体框架,对设计的每一个问题所起的作用十分清楚,对一个理论假设需要哪些指标来测量,也应十分明确。 (3)可行性原则:量表调查需要被调查者的密切合作,因此,在设计量表时,量表中的问题必须符合被调查者回答问题的能力和意愿。问卷的问题要简洁,语言要通俗易懂,使被调查者能够顺利地完成。同时要考虑完成调查的时间要合适,量表内容太多,调查时间太长,都可能影响调查质量。

三、量表的编制步骤 1.明确目标(假设与概念)的范畴和内容 首先设立研究工作组,研究工作组应该包括研究领域有关的专家,例如医院医疗服务满意度的量表研究,涉及的专家有医院行政领导、医院管理学专家、卫生行政部门人员、医生、护士等。还应该包括服务的对象,例如病人及正常人等各层次人员组成。研究工作组包括议题小组(nominal group)和选题小组(focus group—又称核心小组)。在这步工作中,任务是复习文献著作,通过讨论明确量表要评价的目标,包括目标的概念定义、范畴、内容等。 2.探索量表的维度(内涵)和方面 这步工作是定义测量概念及分解,由核心小组给出所测定概念的可操作化定义及构成,如满意度指什么,包含哪些领域和方面,每项领域和方面的含义与内涵等。该过程需要核心小组充分讨论,并请专家组评议完成。

3. 建立条目池和筛选条目 核心小组向议题小组成员解释所测概念、领域和方面的定义和内容,然后由议题小组成员分别独立地根据其个人的理解和经验写出与以上概念有关的条目建议。然后将提出的量表条目整理汇总,形成条目池(item pool)。 4. 设计可操作性条目 这步是确定条目的形成及答案选项,较多的量表答案采用线性或等级形式。前者给出标准化单位的线段和两端选项,由被测者决定答案在线段上的位置;后者则需要选择适当的程度副词表达答案的等距选项。程度副词的选择一般采用反应尺度(response scale)分析确定,例如中文反映频度的副词有:总是、经常、有时、较少、偶尔、罕见、从不等。请一批有代表性的受试者,让每一受试者独立地按其对这些词程度的理解标记在标准化线段上,然后分析这些词的平均位置,选出合适位置的程度副词。例如表24-1列出关于重要性的各种量词的平均分(满分是10分)。

表24-1 关于重要性量词的反应尺度分析 量词 平均分 非常不重要 0.90 重要 5.96 不重要 1.10 比较重要 7.14 比较不重要 2.40 相当重要 8.04 基本重要 4.41 很重要 8.59 有些重要 4.72 非常重要 8.69

5.量表的定性评价 当完成条目池后,必须对条目进行测评和筛选,方法有两类:定性评价和定量评价。定性评价常用专家咨询法和Delphi法。专家咨询一般采用座谈会形式,邀请有关专家对每项条目的重要性、关联性、可行性等进行讨论,寻求一个共同的意见。这里要注意,如果参加座谈会的专家较多,应该将专家按专业、年龄等分组,以组为单位召开座谈会,以提高效率。Delphi法一般采用向专家发信,由专家单独对各条目的重要性进行评价。信中可要求专家对每项条目的重要性、必要性和可行性进行定量评分,并可以对个别条目提出具体的修改意见。根据Delphi法调查的结果,可对各条目进行排序,淘汰排列在后面的条目,修改条目的措词,并帮助拟定各条目的权重。(具体的方法见本章第三节)

6.量表的预调查和定量评价 当形成初步量表后,可以进行小样本测量对象的预调查,对量表的可理解性,使用语言的流畅性,以及量表的信度、效度和反应度进行定量评价(具体的统计分析方法见后面的第三节)。根据预调查和量表定量考评的结果,进一步对量表进行修订完善,形成最终量表。 7.建立常模 某些量表在完成量表的研制后,还必须进行一个较大样本量的正常测试对象的抽样调查,根据抽样调查的结果建立量表各条目的权重值,各领域的权重值和总评分的计算公式。以及正常人群的标准值范围,好、中、差等不同等级人群的评分值范围等,供应用时参考。这就是所谓的常模。

四、条目定量分析和筛选的统计方法 量表条目的定量分析和筛选类似于综合评价指标的筛选,所使用的统计方法也基本相同。一个好的条目应具有意义重要、敏感性高、独立性强、代表性好、确定性好的特点,并具有一定的可操作性和可接受性。

具体可以从以下方面分析和筛选。 (1)主观评价法:也称专家法,属于条目的定性评价,主要测评条目的重要性。 (2)离散趋势法:主要测评条目的敏感性。显然条目的变异程度越小,说明其区别能力差,对被测对象的差异不敏感。一般可用标准差或变异系数表示,如果测定值不呈正态分布,需先作适宜的变量变换,然后再计算标准差。 (3)相关系数法:这主要测评条目的代表性和独立性。任意两条目的相关系数反映这两条目的独立性和代表性。

(4)主成分分析和因子分析法:这是从代表性角度筛选指标,根据各主成分与各指标的相关性大小分别考虑各个主成分主要由哪些指标决定,选择系数较大的指标。 (5)聚类分析法:也是从代表性角度筛选指标。先采用聚类分析方法(一般采用系统聚类法)对各指标进行R型聚类分析,把相关密切的指标聚成一类,然后从每一类中选择有代表性的指标。 (6)基于重要性评价的逐步筛选法:是主观评价法的推广,类似于德尔斐(Delphi)预测法。 (7)逐步回归法:在预调查中除要求被测者回答各条目外,还要求对其目标值进行总的评分。将总评分作为应变量Y,各条目作为自变量X=X1,X2,…,Xm。进行多重逐步回归分析,筛选对应变量Y影响较大的指标。

(8)逐步判别法:选择不同状态的人群,如评价测试对象的生存质量时,可选择健康人、一般慢性病病人和严重疾病患者或残疾人,用待评量表测定其生存质量。用逐步判别分析筛选对不同健康状态人群鉴别能力有较大贡献的条目,这些条目将使量表具有较好的区分度。 总之,条目的筛选可以用多种多样方法,各种方法的筛选结果可能不尽相同。在实际应用中可结合各种方法,筛选结果较一致的条目。

例24-2 在206例高血压病例与正常人的生存质量预调查中,对生理领域的3个方面(即疼痛、精力和睡眠)12个条目的质量进行分析,结果见表24-2。

表24-2 量表条目的筛选分析结果 条目 相关系数 变异系数 因子载荷 逐步回归 逐步判别 (%) F1 F2 F3 F11 -0.166 表24-2 量表条目的筛选分析结果 条目 相关系数 变异系数 因子载荷 逐步回归 逐步判别 (%) F1 F2 F3 F11 -0.166 * 40.90 0.222 0.013 -0.478 F12 -0.226 ** 42.51 0.762 -0.046 -0.143 F13 -0.240 44.25 0.812 -0.069 -0.175 F14 -0.089 40.58 0.706 0.020 -0.265  F21 0.243 42.06 -0.112 0.233 0.801 F22 -0.181 39.09 0.657 -0.255 -0.197 F23 0.227 32.24 -0.126 0.224 F24 -0.276 41.15 0.741 -0.293 -0.016 F31 0.212 32.14 0.025 0.830 0.297 F32 -0.317 51.74 0.512 -0.665 -0.017 F33 0.237 35.24 -0.037 0.824 0.308 F34 -0.316 55.73 0.480 -0.669 0.112 * 相关系数假设检验P<0.05, ** P<0.01;  逐步回归和逐步判别筛选入模型的变量。

表中: 第2列:各条目与生存质量总评分的相关系数,最高的是F32和F34。 第3列:各条目的变异系数,最大的是F34和F32。 第4列至第6列:是因子分析结果,结果可见第一因子主要是方面1(疼痛与不适),第二因子主要是方面3(睡眠与休息),第三因子主要是方面2(精力与疲倦),从结构来说符合量表制定目标。 第7列和第8!列:是逐步回归和逐步判别筛选出的条目,逐步回归是筛选与生存质量总评分关系最密切的变量,逐步判别是筛选区分有病和无病贡献最大的变量,F32都被选入模型。从分析结果来看F32的离散趋势大,与总分的相关密切,无论是与总分的回归和对病人与正常人的区分度都较大,是比较好的条目。F32是询问被测者睡眠是否有困难,可见睡眠对于一般人的生存质量是非常重要的因素,也是区分正常人和病人特异性指标。

五、量表编制的注意事项 1.量表的条目数量 量表条目数量应该与完成量表测定的时间协调,根据大量调查的经验表明,个人访谈的时间在15~30分钟左右比较合适。超过半小时,被访者的回答质量就可能下降。根据这时间限制,量表的条目应该在30~50项左右,所以一般量表的条目数目大多在此范围。如果量表的条目数目超出此范围,需要采取相应的措施保证调查质量。 2.量表问题的措词要明确具体,避免一个条目包含多个问题,避免提引导性的问题,避免提断定性的问题,避免提笼统、抽象的问题。 3.量表的测评内容可能包含客观指标和主观指标,在设计条目时要注意两种属性指标提问方式的区别,客观指标的提问需要具体,客观和数量化,而主观指标的提问更注重被访者的感受和态度,定量也更模糊。

第三节 量表的考评方法 一、量表的定性考评 二、量表的信度分析 三、量表的效度分析 四、量表的反应度分析

一、量表的定性考评 量表的定性考评指通过专家座谈会或专家咨询的方式,对量表及各条目进行定性评价,目的是完善量表的结构,修饰条目的措词,筛选条目和确定各条目的权重等。

例24-3 某医学成果评价量表的研制过程中,邀请了35位专家对量表作评价,其中临床医学专家19人,基础医学专家9人,科研管理专家7人。采用Delphi法进行量表初稿的评价,调查结果见表24-3。经过调查,确定了一级条目和二级条目的重要性和权重。根据专家咨询结果,对部分条目进行了修改,删除部分重要性得分低的条目,并增加个别条目。

表24-3 医学科技成果评价量表专家咨询结果 一级指标 平均权重 重要程度 二级指标 研究投入 0.1304 5.5 课题来源 0.3550 表24-3 医学科技成果评价量表专家咨询结果 一级指标 平均权重 重要程度 二级指标 研究投入 0.1304 5.5 课题来源 0.3550 6.6 经费额度 0.3129 6.4 课题组规模 0.2675 5.8 学术水平 0.2643 8.9 科学性 0.2900 9.3 创新性与先进性 0.3111 9.1 难易程度与复杂程度 0.1854 7.6 成熟程度 0.1828 7.2 科学界公认 0.2688 论文发表档次 0.2854 8.8 论文引用 0.2504 8.5 SCI收录 0.2404 7.8 推广应用程度 0.2059 7.7 影响因子总和 0.2500 8.0 成果效益 0.1929 7.9 直接经济效益 0.4686 社会效益 0.5207 8.2 知识产权 0.1473 6.7 专利 0.2464 版权登记 0.1482 新药(药械)证书 0.2723 专著著作权 0.1491 准入、标准或指南 0.1714 6.5

二、量表的信度分析 信度(reliability)主要评价量表的精确性、稳定性和一致性,即测量过程中随机误差造成的测定值的变异程度的大小。常用的信度指标有: (1)重测信度(test-retest reliability) :重测信度是相同量表前后两次测量同一批被访者的量表得分的简单相关系数r,一般要求达到0.7以上。 (2)分半信度(split-half reliability) :相同量表的调查项目分成两半,如分前后两个部分、按提问项目号的奇数和偶数分两个部分。计算两个部分得分的简单相关系数r,分半信度的Spearman-Brown计算公式为: (24-1) (3)克朗巴赫系数(Cronbach’s alpha coefficient):评价多个调查项目和谐水平的克朗巴赫系数(Cronbach’s alpha coefficient)计算公式为 (24-2) 式中k为调查项目数, 为第i个调查项目得分的方差, 为量表总得分的方差。一般认为克朗巴赫系数应达到0.7以上。

例24-4 某医生用WHOQOL-100量表调查了50例正常人的生存质量,一周后重复调查一次,结果见表24-4。表中F1-F24是第1次调查24个方面的得分,T1是第1次调查的总分,T2是第2次调查的总分。Q1是第1次调查,被访者对自己生存质量的总评分,满分是100分。

该资料计算的有关信度指标:①重测信度:r=0.82;②前后差值的均数为 =3.87,t=1.544,P=0.129;③克朗巴赫系数:

三、量表的效度分析 效度(validity)主要评价量表的准确度、有效性和正确性,即测定值与目标真实值的偏差大小。效度意在反映某测量工具是否有效地测定到了它所打算测定的内容,即实际测定结果与预想结果的符合程度。由于无法确定目标真实值,因此效度的评价较为复杂,常常需要与外部标准作比较才能判断。

内容效度与结构效度也有相关性,因此评价结构效度的量化指标也间接反映了内容效度。 常用的效度指标: 内容效度(content validity):指量表的各条目是否测定其希望测量的内容,即测定对象对问题的理解和回答是否与条目设计者希望询问的内容一致。内容效度一般通过专家评议打分。 标准关联效度(criterion-related validity) :又称标准效度,是以一个公认有效的量表作为标准,检验新量表与标准量表测定结果的相关性,以两种量表测定得分的相关系数表示标准效度。 结构效度(contract validity) :又称构想效度,说明量表的结构是否与制表的理论设想相符,测量结果的各内在成分是否与设计者打算测量的领域一致,结构效度主要用证实性因子分析(confirmatory factor analysis, CFA)评价。 内容效度与结构效度也有相关性,因此评价结构效度的量化指标也间接反映了内容效度。

例24-4中,被测者自评总分与量表总分的相关系数为r=0

证实性因子分析是确定存在几个因子,以及各实测变量与各因子的关系,用实际数据拟合特定的因子模型,分析拟合优度,评价实测指标性质与设计目标是否吻合。证实性因子分析将量表的每个条目作为一项指标,分析所有指标的内在公因子。如果因子分析提取的公因子与量表设计时确定的各领域有密切的逻辑关系,则说明量表有较好的结构效度。

例如WHOQOL—100量表有6个领域共24个方面,按照量表设计的结构做证实性因子分析。设方面1、2、3反映第1因子F1,方面4、5、6、7、8反映第2因子F2,方面9、10、11、12反映第3因子F3,方面13、14、15反映第4因子F4,方面16、17、18、19、20、21、22、23反映第5因子F5,方面24反映第6因子F6,根据因子结构写出因子模型: 写出相应的模型后,基于例24-4的样本数据对假设的模型进行拟合。考察模型对数据的总的拟合程度的指标主要有2统计量、拟合优度指数(goodness of fit index,GFI),由于其计算过程涉及到矩阵,就不罗列计算公式了,可用相应统计软件得出结果。 对例24-4的分析结果为GFI=0.6073,2=1844.28,P<0.01。该结果说明实际量表测量结果与设计结构拟合效果仍不够理想,可能与样本较小有关,也可能设计的模型结构不合理,需要修改模型设计,再进一步做证实性因子分析。

四、量表的反应度分析 临床医学用的量表常用于评价不同治疗措施的治疗效果比较,因此量表必须反映出对象细微的疗效差别,即具有一定的反应度(responsibility)。反应度指量表能测出不同对象、不同时间目标特征变化的能力,即反映对象特征值变化的敏感度。量表得分( )评价常用的统计量是效应尺度(effect size) 效应尺度 (24-3)

例24-5 某医院心理科医生研制神经症量表评价心理障碍病人神经症状改善情况,对72例心理科住院病人(焦虑症30 例,强迫症20 例,癔症12 例,恐怖症10 例)分别在治疗前后用该量表进行评价, 结果治疗前病人的平均得分25.74,标准差5.69,治疗后平均得分31.18,效应尺度为(31.18-25.74)/5.69=0.956。经配对t检验,t=7.14,P<0.01,差异有统计学意义,说明量表能区分治疗前后症状的改善。

第四节 量表资料的统计分析方法 一、量表评价资料的特点 量表评价研究的试验设计可以是描述性的,也可以是比较性的。无论如何,首先是将研究对象按不同处理因素分成若干组,比较其测评量表值的差别; 其次,量表评价极少是一次性测评,一般需要做多次的重复测评,比较疾病治疗的不同时期量表测评特征的变化,因此为重复测量资料; 最后,量表评价一定是多维度的,最复杂的是每项条目就是一个变量,即一个维度, 总结起来,量表评价资料需要做多处理组间重复测量资料比较的多变量分析,显然这涉及相当复杂的统计分析方法。

缺失值: 1)由于是重复测量资料,量表评价过程不可避免地会出现缺失值。 2)如果缺失值出现较多,则可能使整个资料无法分析。 如何补缺是量表评价资料分析时必须考虑的问题。

二、量表资料的统计分析概述 与一般资料的统计分析相似,量表评价资料的统计分析包括描述性统计和推断性统计。

描述性统计是任何统计分析的第一步,通过统计描述,得到资料的主要信息和分布特征,为确定进一步统计提供依据。统计描述就是按分组、按时点计算各条目、方面、领域和合计等指标的统计量,如构成比、均数和标准差等。采用统计图,如散点图、线图和直条图等描述量表测定值的分布,时间变化趋势和主要特征比较。

推断性统计分析:按分析方向可以分成 1)横向资料比较:比较同一时点不同处理组的量表时使用。包括单变量分析和多变量分析。 单变量分析可以用常规的t检验、方差分析和秩和检验等比较两组或多组量表总分和各领域或方面的得分。要注意的是量表指标常常是多维的,如分别比较各领域或方面的得分,因此需要做多个假设检验。由此可能增加犯假阳性错误的概率。为避免假阳性错误概率增加,可以对检验水准作Bonferroni校正。即如果需要做k次假设检验,总的检验水准为,则每次的检验水准为/k。 如果在评价量表时需分别比较各领域的得分,又需要做出总的结论,则要用多变量分析。

实际上量表属于多指标的综合状况评价,所以许多综合评价方法也同样可以用在量表评价中,如模糊判别法、O’Brien综合法、秩和比法、TOPSIS法等,为避免重复,这里不做详细介绍,可以参考本书的第二十三章。

2)纵向资料比较:当研究设计不是一次性地测量研究对象的某量表测定值,而是在不同时间多次重复测量研究对象的该量表测定值,则需要做纵向资料比较的统计分析。

纵向资料分析的目的: ①对同一组人群不同时点的量表测定值进行比较,说明量表测定值在时间上的变化规律; ②比较两组或多组人群的量表测定值在时间上的变化规律,其实质是两条曲线的比较,说明不同处理对人群某量表测定值变化规律的影响; ③既比较不同组间又比较不同时点某量表测定值的变化规律,实际上是以上两种分析的结合。 如果把不同时点同一指标看作多个指标,可以用多变量的Hotelling T2或多元方差分析比较两组或多组间的差异,但这方法没有考虑重复测量值间的相关性。此外也可以用重复测量资料的方差分析,分别比较不同处理组间量表测定值是否有差异和不同时点间的量表是否有差异。最后可以考虑轮廓分析比较不同组量表测定值变化曲线的轮廓是否有差异。

三、量表评价资料统计分析的实例 例24-6 续例24-3,某研究者用例24-3的量表回顾性评价2002年某省医学科研成果申报项目共38项,其中19项为落选项目,19项获得二等以上奖励。各项项目的量表评价一级指标得分和和总得分见表24-5。表中一级指标分别是研究投入(T1)、学术水平(T2)、科学界公认(T3)、成果效益(T4)和知识产权(T5),TT是量表总分。

表24-5 获奖项目与落选项目的量表评价各领域得分 表24-5 获奖项目与落选项目的量表评价各领域得分 落选项目 获奖项目 TT T1 T2 T3 T4 T5 1.74 0.43 0.48 0.40 0.28 0.14 2.40 0.46 0.97 0.35 0.49 2.35 0.54 0.91 2.84 0.37 1.01 0.55 0.76 2.12 0.20 0.75 0.39 0.56 0.23 2.91 0.47 1.06 0.73 0.50 1.97 0.38 0.41 0.29 2.66 2.14 0.18 3.25 1.28 0.85 0.61 1.75 0.25 0.62 2.83 0.57 1.67 0.22 2.63 0.32 0.26 1.25 0.16 0.27 2.67 0.98 0.44 1.84 0.34 2.94 0.78 1.15 0.19 3.73 1.24 2.24 0.24 0.88 2.08 0.83 0.45 2.55 1.36 0.13 0.36 3.39 0.59 0.84 0.68 1.58 0.17 0.53 0.33 3.02 2.59 0.96 1.91 3.13 1.14 0.52 1.42 2.64 3.19 2.06 0.21 0.71 0.51

项目 落选项目 获奖项目 S 总分(TT) 1.77 0.35 2.82 0.41 研究投入(T1) 0.28 0.12 0.43 0.11 据表24-5计算两组对象各领域的平均得分,结果见表24-6。 表24-6 获奖项目与落选项目量表评价的平均得分与标准差 项目 落选项目 获奖项目 S 总分(TT) 1.77 0.35 2.82 0.41 研究投入(T1) 0.28 0.12 0.43 0.11 学术水平(T2) 0.61 0.21 1.05 0.10 科学界公认(T3) 0.08 0.57 0.19 成果效益(T4) 0.38 0.09 0.60 0.14 知识产权(T5) 0.15 0.03 0.17 0.05 经做多变量方差分析,两组间总的差异有统计学意义,F=14.93,P<0.001。其中差异主要是领域1、领域2、领域3和领域4,F值分别为14.85,64.57,23.66和34.29,P值均小于0.001。结果说明目前医学科研成果获奖主要体现在前面4个领域,在知识产权方面差别不大。

例24-7 在评价两种化疗方案疗效的临床研究中,应用生存质量作为疗效评价指标。将肿瘤病人随机分成两组,A组接受联合方案低剂量化疗,B组接受单药大剂量化疗。每组各治疗了10例病例,分别在化疗后1个月、3个月和1年进行生存质量测定。量表有5个条目,每个条目的答案最低得分为1分,最高为5分,即总分最低5分,满分为25分。两组调查结果见表24-7。

根据两组病例各时点的生存质量测定结果的均值,绘制成曲线见图24-1。 表24-7 肿瘤病人经两种化疗方案治疗后的生存质量测定值 测定时间 1月 3月 1年 A组 12, 6, 12, 21, 9 13, 10, 18, 21, 10 24, 13, 22, 24, 22 8, 7, 14, 10, 21 18, 13, 20, 20, 24 24, 24, 24, 22, 24 12.0 16.7 22.3 B组 11, 12, 16, 11, 6 16, 11, 15, 14, 12 23, 18, 22, 19, 16 12, 8, 19, 11, 10 8, 11, 18, 9, 12 20, 14, 9, 21, 21 11.6 12.6 18.3 根据两组病例各时点的生存质量测定结果的均值,绘制成曲线见图24-1。

图24-1 两组肿瘤病例化疗后生存质量均值的变化趋势 研究者主要关心的是两种治疗方法的治疗效果即生存质量是否有差异。这种差异包括治疗后的变化趋势是否不同,即曲线的上升和下降幅度是否一致;还包括两种治疗后病人生存质量水平是否相同,即两条曲线的纵轴水平是否重合。这里应用了轮廓分析方法。

轮廓分析方法。 首先做两总体轮廓的平行性检验,平行性检验的F=2.88,查表F0.05,(2,17)=3.59,P>0.05,差异无统计学意义,可以认为两曲线平行。要注意如果差异有统计学意义,则说明两组病例的生存质量在不同时点的变化规律不同,不用继续做以下的检验了。 接着做两总体轮廓的重合性检验,当两总体轮廓平行时,检验重合性等价于两均向量的检验,可直接用Hotelling T2检验。设(1-2)=e,e’=(1,1,…,1)是p维取值为1的常数向量,是两组在各时点均值之差的期望值,检验在两曲线平行条件下两曲线是否重合的假设为H0:=0, H1:0,=0.05。经分析,结果为: =3.47,的95%可信区间为3.473.23=(0.24,6.70),95%可信区间没有包含零,说明差异有统计学意义,联合方案病例的生存质量较好。假设检验F=4.55>F0.05(3,16)=4.45,P<0.05,与可信区间结果一致。 如果前两项检验差异都没有统计学意义,即说明两条曲线重合,可以合并成一条曲线。合并后可以进一步检验该曲线是否水平,即在不同时点生存质量值的均数是否相等。如例24-4,水平性检验F=20.81,自由度分别为2和18,P<0.01,差异有统计学意义。说明在不同时点生存质量均值不同,化疗后生存质量逐步回升。

四、量表的应用 量表测评早期多用于心理学、教育学和社会学的调查测评中,上世纪60年代逐渐引入医学研究中。特别是当医学模式从生理学模式向生理、心理和社会综合模型转变后,量表测评显得日益重要,并且已经改变了一些传统的医学研究指标。 (1)心理学和精神病学应用 量表测评在医学最早应用于心理学和精神病学中,包括心理和精神疾患的诊断和疗效评价。例如应用心理测评量表评价运动员、军人、飞行员等从事高风险职业人员的心理素质。许多心理和精神疾病的诊断主要通过量表测评,在现代社会中,心理精神疾病已经成为常见病、多发病,如忧郁症、情绪抑郁、自闭症等。这些疾病没有明显的生物医学体征和实验室检查指标,而量表测评则是这些疾病诊断的主要参考标准,并且可以用量表测量评价治疗后这些疾病的改善程度。

(2)临床疾病治疗效果评价指标:传统的临床治疗疗效评价指标主要是病人的生理病理改变,如临床症状、体征和实验室检验指标的改善,病原微生物的消除,病理组织细胞学的恢复等。但近年来疗效的评价已经远远超出了生理学的范畴,例如生存质量的评价,就是利用量表的形式对病人自身的体验,病人对自己身体、精神和社会适应的满意度进行测评,从一个全新的角度评价临床治疗疗效。生存质量测评是人类从追求生理健康向追求精神生活健康发展的深层次需要。病人健康状况的好坏,不是医生所能决定的,而是病人自己感觉到的。生存质量评价更体现了以病人为中心的思想。美国FDA已经接受将生存质量作为临床疗效评价的指标体系之一,这给传统的治疗方案确定提出新的挑战,可能完全改变原有的治疗方案和护理规范。 (3)疾病与健康统计的新指标:目前我国疾病流行模式从传染病和营养缺乏疾病向慢性退行性疾病转变,传统的发病率、死亡率和期望寿命,已不能适应新形势的需要。以量表评价为基础的一些新的统计指标也就应运而生,如以生存质量评价为基础的生存质量调整寿命年(quality adjusted life years, QALYs),以残疾率为基础的残疾调整寿命年(disability adjusted life years , DALYs)等。这些指标不仅通过寿命反映人群的健康状况,还结合对生存质量和残疾状况的量表测评结果,反映生存人群的健康状况,综合健康和死亡两方面信息,更全面反映人群总体健康状况,是更好的健康统计指标。

(4)量表测评在护理学的应用:量表测评在护理学的应用非常广泛,包括对病人护理效果的评价,对护理质量与效率的评价,对护理人员素质的评价,病人满意度的评价,病人心理护理的效果评价等等。此外在康复医学中,病人的康复状况,包括生理状况、精神状况和社会活动与环境的改善很难用一般的医学指标衡量,而量表则是非常有用的评价工具。 (5)量表测评在卫生管理学的应用:吸取社会学中的经验,量表测评在卫生管理学也被广泛应用,并且逐渐深入到管理学的各领域中,例如本章中的病人满意度的调查和医学研究成果评价的量表测评例子。量表测评带动了卫生管理的客观化和定量化,推动我国卫生管理水平的提高。

综上所述,量表测评在医学研究中的应用必将日益广泛,量表测评资料的统计分析也为统计方法学研究提出许多新的问题和挑战,并且至今仍未很好地解决,有待于进一步研究。本章中给出了一般量表测评资料的统计分析思路,仅供实际应用时参考,读者可以结合具体研究目的和资料特征,制订恰当的统计分析方案。

学习愉快!