第8章 护理研究资料整理与分析 主讲教师:吴红艳
资料整理 是根据研究目的与设计要求,利用科学的方法,将原始数据按性质或数量特征,进行审核、补充、评价、分类与汇总,从而使资料更加完整化、系统化及条理化,以便进行分析。
分析资料 是通过计算有关指标和必要的统计学处理,结合专业知识对资料进行对比与推断,从而阐明事物内部的联系和规律性,做出恰如其分的结论。资料分析方法可分为统计描述与统计推断两大部分。
统计分析 统计描述:用统计指标、统计表、统计图等方法对资料的数量特征及其分布规律进行测定和描述。 统计推断:如何在一定的可信程度下用样本信息推断总体特征。
依研究目的所确定的具有相同性质的研究对象全体. 总体与样本 总体 样本 依研究目的所确定的具有相同性质的研究对象全体. 总体中的 一部分
科研数据的的类型: 计量资料、计数资料 、 等级资料 测量方式所得 按程度等级搜集 清点个数方式所得 不同类型的资料可根据研究目的和统计分析的需要相互转化。
8.1 资料整理 目的:为了便于研究,使原始资料围绕研究目的整理成能系统地说明问题的有序数据,以便采用恰当的统计方法进行分析。
8.1.1 资料整理的原则 1. 完整性 2. 标准性 3. 真实性 4. 准确性 5. 合理分类
8.1.2 资料的审核与取舍 1. 资料审核 (1) 技术检查 (2)对照核实 (3)缺漏检查 (4)逻辑检查
2.资料编码与输入 通常采用SPSS、SAS等软件输入与数据管理 3.计算机检查
4.缺失值的处理 在资料收集过程中由于种种原因造成某些项目存在缺项与漏项或填写不完整而无数值或数值不全,称为缺失值。 5.可疑值的处理 经验判断法、Grubbs 法、Chauvenet 法和 Smirnov法
8.1.3 资料的分组与汇总 1.设计整理表 2.资料分组 (1)质量分组:将数据按属性或类别进行分组。如性别、病种。 8.1.3 资料的分组与汇总 1.设计整理表 2.资料分组 (1)质量分组:将数据按属性或类别进行分组。如性别、病种。 (2)数量分组:将观察单位按数值大小分组,此类数值属于计量资料,观察值多为连续性数值。
数量分组的步骤 求数据的极差:最大值与最小值之差 确定组数 确定组距(可以相等也可以不等,一般为等距分组,其组距近似于极差与组数之比)。 确定各组段的上下限(每个组段的起点被称为该组的下限,终点被称为上限) 。第一组段必须包括最小值,其下限一般取包含最小值的较为整齐的数值。最后一组段必须包括最大值。
表 某学校五年级50名学生的身高测量结果(cm) I X i X i X i X I X 1 141 11 133 21 152 31 129 41 136 2 138 12 135 22 149 32 132 42 146 3 135 13 137 23 148 33 141 43 144 4 142 14 134 24 132 34 138 44 134 5 130 15 138 25 143 35 137 45 138 6 137 16 121 26 127 36 148 46 131 7 135 17 137 27 155 37 144 47 143 8 137 18 139 28 127 38 142 48 140 9 131 19 126 29 143 39 141 49 133 10 135 20 135 30 139 40 131 50 134
频数分布表 表 某小学五年级50名学生的身高统计 身高(cm) 频数 累计频数 频率 累计频率 (1) (2) (3) (4) (5) (1) (2) (3) (4) (5) 120~ 1 1 2.00 2.00 125 ~ 4 5 8.00 10.00 130 ~ 11 16 22.00 32.00 135 ~ 17 33 34.00 66.00 140 ~ 12 45 24.00 90.00 145 ~ 3 48 6.00 96.00 150 ~ 155 2 50 4.00 100.00 合 计 50 - 100.00 -
3.资料汇总 手工方法 计算机方法
计算机数据整理框架 例数 X1 X2 X3 X4 … … … … ... … Xn 1 2 3 4 n
8.2 计量资料的统计分析 统计描述 统计推断
8.2.1 统计描述 1.均数与标准差 集中趋势:均数(描述一组计量资料平均水平或集中趋势最常用的特征指标) 常用算术平均数: = X/n 8.2.1 统计描述 1.均数与标准差 集中趋势:均数(描述一组计量资料平均水平或集中趋势最常用的特征指标) 常用算术平均数: = X/n (适于正态分布资料的集中趋势描述) 正态分布:以计量值为横轴、观察例数为纵轴绘制一条频数分布曲线。这条曲线呈对称的、中间高、两侧逐渐下降的钟形;在正态分布的图形中,从曲线最高点向横轴作垂线,相交点即为均数值;而钟形曲线的高低、宽窄取决于标准差。
正态分布 图1. 某小学五年级50名学生身高的频数分布
偏态分布
算术均数计算 某年龄段儿童体重 26 28 30 32 34
两组儿童体重 甲组 29kg、30kg、31kg 乙组 20kg、30kg、40kg
标准差的计算
标准差计算举例 某年龄段儿童体重 26 28 30 32 34
2、中位数与百分位数 (1)中位数是将n个变量值从小到大排列,位置居于中间的那个数。当n为奇数时,取位次居于中间的变量值,当n为偶数时,取位次居中的两个变量值的均数。用于描述非正态分布资料的平均水平。 (2)四分位数间距(QR):四分位数是把全部变量值分为四部分的分位数,即第1四分位(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距是由第3四分位数和第1四分位数相减而得,记为QR。用于描述偏态分布资料的离散程度指标。
8.2.2 统计推断 1.概述 概率:描述某一随机事件发生可能性大小的一个度 量,也称几率,统计学上用 P 表示。 8.2.2 统计推断 1.概述 概率:描述某一随机事件发生可能性大小的一个度 量,也称几率,统计学上用 P 表示。 0 ≤P ≤1,P 越接近1,表示某事件发生的可能性越大,P 越接近0,表示某事件发生的可能性越小。习惯上将P<0.05称为小概率事件。
标准误:由于抽样而造成的,使来自同一总体的各均数与总体均数存在差异,这种差异成为均数的抽样误差。标准误是表示抽样误差大小的指标。
某年龄段儿童体重 26 28 30 32 34
假设检验:又称显著性检验,是应用统计学原理由样本之间的差别去推断样本所代表的总体之间是否有差别的一个重要的推断方法。 基本思想:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P 值来判断。当P 小于或等于预先规定的概率值ɑ(如0.05),就是小概率事件。根据小概率事件原理:小概率事件在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为ɑ(如5%)的错误。
假设检验的基本步骤 ①建立假设。建立两种假设,一种是无效假设,用H0表示,其假设通常是某两个(或多个)总体参数相等,或某两个总体参数之差等于0。另一种为备择假设,用H1表示,是与H0相反的假设,其假设通常是某两个(或多个)总体参数不等(或不全等)。 ②确定显著性水平。显著性水平(常用ɑ表示)是用来判断小概率事件是否发生的标准,是人为规定的。当某事件发生的概率不大于ɑ时,则认为该事件为小概率事件,即发生的可能性较小。通常取ɑ值为0.05(5%)或0.01(1%)。 ③计算统计量。根据资料类型或研究目的,选择适当的公式计算统计量,如计算t 值或 x2值。 ④确定概率P 值。计算出统计量后查相应的工具表可得出概率P 值与ɑ大小的关系。 ⑤作出统计结论。如果P>ɑ,我们认为发生H0 假设的可能性大;如果P<ɑ,则认为发生假设H1 的可能性较大。
2.t 检验 (1)两样本均数差别的显著性检验 适用条件:两独立样本,均服从正态分布,两样本方差齐。
总体 样本Ⅱ 样本Ⅰ 两样本是否来 自同一总体?
两样本均数比较举例 新旧两药的退热天数比较 ±s 药物 例数 退热天数 新药 35 3.8±0.8 旧药 37 5.2±0.9
方差齐性检验
t 界值表(节选) 自由度(v) 概率(P) 0.50 ------- 0.050 0.01 1 1.000 12.706 63.657 9 0.703 2.262 3.250 70 0.678 1.994 2.648 两样本均数比较,v=n1+n2-2
(2)配对计量资料均数差别的显著性检验 适用情况:同质对象分别接受两种不同的处理;同一对象分别接受两种不同的处理;同一受试对象(一种)处理前后(因设计有问题,现已不用)。
i 用药 不用药 d= ▲- ★ 1 ★1 ▲1 d1 2 ★2 ▲2 d2 …… n ★n ▲n dn
表 两种方法穿刺病人疼痛评分比较 病人编号 常规法 新方法 差值d 1 4 2 2 2 5 3 2 3 6 3 3 4 3 3 0 表 两种方法穿刺病人疼痛评分比较 病人编号 常规法 新方法 差值d 1 4 2 2 2 5 3 2 3 6 3 3 4 3 3 0 5 4 2 2 6 5 4 1 7 2 1 1 8 1 1 0 9 4 2 2 10 4 3 1
d=2+2=3+0+2+1+1+0+2+1=14 d2=22+22=32+02+22+12+12+02+22+12=28 =d/n=14/10=1.4
(3)应用t 检验的注意事项 遵循随机抽样原则 正确判断单双侧检验 正确理解“差别有显著性意义”的含义 根据专业知识慎重地下结论 正确选择t 检验的方法 t 检验的局限性
3.方差分析 基本思想:测量所得的资料存在误差,该误差由两方面构成,一方面是分组带来的误差(即不同组间存在的差别),称之为组间误差;另一方面是各组内个体值测量的误差(即同组不同个体间存在的差别),称之为组内误差。如果组间误差与组内误差相当或比组内误差更小,则说明组间的差异是抽样误差所致,各组所代表的总体之间是相同的;如果组间误差比组内误差大,则说明组间的差异是不同组实验处理所引起,各组所代表的总体之间确实存在差别。
多个样本均数比较,宜用方差分析,若总体有差异,则进一步做两两比较,常用q 检验,而不宜直接用t-检验 进行两两比较 三组疮面面积比较 ±s 组别 例数 面积(cm2) A组 60 0.14 ± 0.03 B组 60 0.99 ± 0.02 C组 60 1.51 ± 0.02 多个样本均数比较,宜用方差分析,若总体有差异,则进一步做两两比较,常用q 检验,而不宜直接用t-检验 进行两两比较
8.3 计数资料的统计分析 8.3.1 统计描述 1.相对数的概念 相对数:是两个相互关联的绝对数之比。 2.常用相对数 8.3 计数资料的统计分析 8.3.1 统计描述 1.相对数的概念 相对数:是两个相互关联的绝对数之比。 2.常用相对数 率、构成比、相对比、动态数列
相对比、率与构成比的定义 事物的 内部各部 分所占比重 不同特征 的计数 之比 在一定 时间及范 围内某事件发 生的频率(强度)
如:某社区有男性3350人,女性2150人,体检出糖尿病105例,其中男65例(61.9%),女40例(38.1%) 。 男性检出率:65/3350=1.94% 女性检出率:40/2150=1.86% 率=某事件的实际发生数/可能发生该事件的总数
3.应用相对数的注意事项 观察例数应足够大 注意率的分子与分母对应 正确理解率与构成比的含义 率的比较必须进行标准化 只要是针对样本的研究,就存在抽样误差的问题
8.3.2 统计推断 1.总体率的推断
2. X2检验 四格表资料的X2检验 样本 阳性 阴性 合计 甲样本 a (T1) b (T2) a+b 样本 阳性 阴性 合计 甲样本 a (T1) b (T2) a+b 乙样本 c (T3) d (T4) c+d 合 计 a+c b+d N
两组一次穿刺成功率比较 例 组别 成功 不成功 合计 对照组 28 12 40 观察组 35 5 40 合 计 63 17 80
1< Tmin <5,且 n ≥ 40时,有: 四格表资料的专用公式: 条件:Tmin ≥5 ,且 n ≥ 40
校正X2检验 两组静脉炎发生率比较例 T1=26 ×14/78=4.67<5 组别 发生未发生 合计 对照组 8 18 26 组别 发生未发生 合计 对照组 8 18 26 观察组 6 46 52 合计 14 64 78 T1=26 ×14/78=4.67<5
2界值表(节选) 自由度(v) 概率(P) 1 3.84 6.63 四格表资料:v=(2-1)(2-1)=1 0.995 ----- 0.050 0.010 1 3.84 6.63 2 0.01 5.99 9.21 3 0.07 7.81 11.34 四格表资料:v=(2-1)(2-1)=1
行×列表(R×C表) 不同职称护士达标率比较 人 职称 达标 未达标 副主任、主任护师 12 2 护士、护师 111 72 不同职称护士达标率比较 人 职称 达标 未达标 护士、护师 111 72 主管护师 97 41 副主任、主任护师 12 2
常用的统计学分析方法 1.计量资料 (1)样本均数与总体均数比较 服从正态分布用t检验,符合Poisson分布用u检验。 (2)两样本均数比较 服从正态分布且两样本的总体方差齐用t检验(方差不齐用t’检验),大样本亦可用u检验(两样本均>60例),不服从正态分布用秩和检验。 (3)配对样本均数的比较 两样本差值服从正态分布用配对t检验,不服从用符号秩检验。 (4)两个以上样本均数的比较 服从正态分布且各样本对应的总体方差齐用F检验(方差分析),否则用秩和检验。若总体差异有统计学意义,可进一步进行两两比较。
2.计数资料 (1)样本率与总体率的比较 用u检验,二项分布或Poisson分布的直接概率法。 (2)两个样本率的比较 用四格表资料的x2检验,u检验。 (3)多个样本率的比较 用行×列表的x2检验,如总体差异有统计学意义,需进一步进行两样本的两两比较时,可进行x2分割。 (4)配对样本率的比较 配对x2检验。 3.等级资料 (1)两样本比较 用两样本比较的秩和检验。 (2)多样本比较 用多样本比较的秩和检验。
8.4 直线相关与回归
8.4.1 相关分析 散点图
1.相关系数的意义与计算 说明具有直线关系的两个变量间相关的密切程度及相关方向的指标。 r 无单位。 r 值介于-1到+1之间。 正相关:0 r 1 负相关:-1 r 0 零相关:r=0 完全相关: r = 1,或 r = -1
2.相关系数的显著性检验 直接查表法 相关系数的 tr 检验
应用相关分析的注意事项 注意相关分析的实际意义 ,两个变量的选择要结合专 业背景,不能把毫无关联的两种现象勉强作相关分析 X、Y 是服从双变量正态分布的随机变量 相关关系不一定是因果关系 零相关不一定没有关系 进行相关分析前应绘制散点图 注意异常点的影响
8.4.2 回归分析 用直线回归方程描述两变量间的依存关系。
8.4.3 直线相关与回归的关析 1.区别 (1)资料要求:直线回归要求Y 服从正态分布;直线相关要求X、Y 服从双变量正态分布。 8.4.3 直线相关与回归的关析 1.区别 (1)资料要求:直线回归要求Y 服从正态分布;直线相关要求X、Y 服从双变量正态分布。 (2)应用:说明两变量间依存关系变化的数量关系用回归;说明两变量间的相关关系用相关。 (3)意义:r 说明具有直线关系的两变量间相互关系的方向与密切程度;b表示X 每变化一个单位所导致Y 的平均变化量 。 (4)取值范围:-1≤r≤1,-∞<b<∞。
2.联系 (1)同一组数据若同时计算r与b,正负号一致。 (2)同一组数据r和b的显著性检验是等价的。 (3)用回归解释相关。
8.5 统计表和统计图 8.5.1 统计表绘制 1.统计表制作的原则 1)标题 标题位于统计表的上端,应概括说明表的内容。 8.5 统计表和统计图 8.5.1 统计表绘制 1.统计表制作的原则 1)标题 标题位于统计表的上端,应概括说明表的内容。 2)标目 分为横标目和纵标目,横标目在表的左侧,具有主语的含义;纵标目在统计表的上方,具有谓语和宾语的含义。 3)线条 采用三线表,只有横线,无竖线和斜线。 4)数字 一律用阿拉伯数字,同一指标的小数位数一致,并保持小数点位置对齐。统计表中不留空格,无数字时用“—”表示。 5)备注 不列入表内,特殊情况须用备注说明时,可用“*”等符号标出,写在表的下面。
2.统计表的应用 不同职称护士达标率比较 人 顶线 纵标目线 职称 达标 未达标 副主任、主任护师 12 2 底线 护士、护师 111 72 不同职称护士达标率比较 人 职称 达标 未达标 护士、护师 111 72 主管护师 97 41 副主任、主任护师 12 2 底线
8.5.2 统计图绘制 1.绘制统计图的原则 1)依据分析的目的和资料的类型,正确选用合适的统计图。 8.5.2 统计图绘制 1.绘制统计图的原则 1)依据分析的目的和资料的类型,正确选用合适的统计图。 2)统计图的标题位于统计图的下端,应概括说明主要内容。 3)大多数统计图设有纵、横轴,纵、横轴的比例应保持5:7,纵轴尺度自下而上,对于均数标准差图、直条图和直方图,纵轴的起点必须为0;横轴尺度自左而右,起点依资料的具体数字而定。 4)比较不同事物时,或采用复式图的形式时,可使用不同线条或颜色表示,并附图例说明。
2.统计图的应用 计量资料:正态分布资料统计描述用均数标准差图,非正态分布用箱图 计数资料:主要有构成图、直条图、线图和直方图
构成图
直方图 图 某小学五年级学生身高图 图2 某小学五年级50名学生身高的分布
直条图 图 不同职称护士各季度考试成绩比较