科研数据的种类 及处理方法 广东省心血管病研究所 麦劲壮.

Slides:



Advertisements
Similar presentations
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
Advertisements

2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
痞 满 河南中医学院第一临床医学院 中医内科 郭淑云. 痞满是指以自觉心下痞塞,胸膈张满,触 之无形,按之柔软,压之无痛为主要症状的 病证。按部位痞满可分为胸痞、心下痞等。 【概念】
胃炎肠炎胃炎肠炎 心脏病心脏病 血管病变血管病变 夭折夭折 肾病肾病 癌症癌症 气管炎气管炎 疟疾疟疾 胃炎肠炎肺炎结核病 肺炎肺炎 结核病结核病 二十世纪六十年代 十大死亡原因排行榜.
基于SPSS的数据分析(上) ——高雅.
词语(成语) 的理解与运用 真 题 例 析 方 法 总 结 1.
第十二章 小组评估 本章重点问题: 评估的设计 测量工具的选择和资料的收集 与分析.
科研设计的统计学原则 高月求.
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
作者:熊林平.
合 同 法 主讲人: 教材:《合同法学》(崔建远) 2017/3/10.
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
中考阅读 复习备考交流 西安铁一中分校 向连吾.
*****临床试验 研究中心:河北医科大学第二医院 ***科 主要研究者:**** 申办者:********公司
研究中心:河北医科大学第四医院 ***科 主要研究者:**** 申办者:********公司 CRO:********公司
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
中央广播电视大学开放教育 成本会计(补修)期末复习
医学期刊统计学审稿 应注意的问题 卫生统计学教研室 易 东.
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
初中《思想品德》课程改革 回顾·现状·展望
卡泊三醇增强PUVA治疗银屑病的疗效 目的 达力士联合PUVA治疗银屑病的疗效 E L Speight
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
中考语文积累 永宁县教研室 步正军 2015.9.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
2-7、函数的微分 教学要求 教学要点.
小学数学知识讲座 应用题.
成组设计两样本均数的比较 赵耐青 卫生统计教研室.
倒装句之其他句式.
内科护理学实验 1 血糖的监测与护理 实验学时:4学时 实验类型:综合性.
第 22 课 孙中山的民主追求 1 .近代变法救国主张的失败教训: “师夷之长技以制 夷”“中体西用”、兴办洋务、变法维新等的失败,使孙中山
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
现场调查数据的处理分析 Survey Data Analysis
第十章 方差分析.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
6.4 你有信心吗?.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
第九节 赋值运算符和赋值表达式.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
王树水 主任医师 广东省心血管病研究所心儿科副主任 广东省介入性心脏病学会结构性心脏病分会侯任主任委员 招生专业与类型 科研工作 教育经历
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
充分条件与必要条件.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
BAFF在活动性SLE患者T细胞中的表达:
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
成本會計 在決策中的功能 第四課 1.
MTOR典型案例征集大赛 标题: 医院: 科室: 姓名: 邮箱: 2015 年 月 日.
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Presentation transcript:

科研数据的种类 及处理方法 广东省心血管病研究所 麦劲壮

什么是统计学? 统计学是一门处理数据中变异性的科学与艺术 内容包括 数据收集、整理、分析、解释和推断

统计学与医学研究 统计学思维和方法已经渗透到医学研究中 如:医学杂志 课题申请 药物开发 如:医学杂志 课题申请 药物开发 相对随机化有对照的临床试验而言,医生个人的临床经验是无计划、杂乱的,而且是非常不可靠的

统计工作步骤 统计设计 资料收集 资料整理 数据分析 写出报告

数据分类 数据分类有多种方法 计数资料、计量资料 连续资料、离散资料

变量的类型 一)定量变量 二)定性变量

一)定量变量 变量值是定量的,有大小之分,有度衡量单位,这种变量称定量变量, 离散型 连续型

1.离散型定量变量 只能取整数,这些定量变量称离散型定量变量,如人数、手术数量、红细胞数量等

2.连续型定量变量 直接测量获得,可以是任意大小,可以有小数点,有度量单位,如血压、身高等测量值。

定量变量常用的统计描述 均数、全距、几何均数、中位数、分位数、众数、方差 、标准差、变异系数、偏度系数等 资料分布不同,要用相应指标 均数:近似服从对称分布 几何均数:等比数资料 中位数和分位数:偏态资料,尤其包 含不完全信息的资料,比如简易血糖仪 测量的血糖值

定量资料的统计分析 单因素: 单组 t检验(满足正态性)、非参数检验 两组 t检验(满足正态性)、非参数检验 多组(大于2组) 方差分析(满足正态性)、非参数检验 多因素: 相关 回归

定量资料的统计分析 单因素多组(3组以上) 使用方差分析 分别有: 一般方差分析 配伍设计方差分析 拉丁方设计方差分析 交叉设计方差分析 析因设计方差分析 重复测量数据方差分析

定量资料的统计分析 单因素定量资料假设检验,均须满足 正态性和方差齐性否则,需作变量变换或选用非参数检验

二)定性变量 1.二分类变量与无序定性变量 2.有序定性或等级变量

二)定性变量 二分类变量与无序定性变量 虽然这些变量可能用1、2、3等数字表示,但并不一定代表其大小或水平

1.1二分类变量 科学研究中,常用1、2代表男女,0、1代表疾病有无,这些就是二分类变量,这里0、1、2并无大小、水平之分,可以用字母代替。

1.2 无序定性变量 一些变量虽然可以用1、2、3代表,但是也是无大小或水平之分的,如职业、民族等,其中的工、农、商、干部、技术人员等,并无大小、等级或水平之分,这些也可以用A、B、C等代表,因此称无序的定性变量,也称分类变量或名义变量。

2. 有序定性或等级变量 一些定性变量是有序或有等级的,这种定性变量就是有序定性或等级变量。 例如,临床检验结果-、± 、+、++等, 疗效:治愈、显效、好转、无效、死亡

定性资料的统计描述 通过频率分布及相对数指标来描述其分布特征 百分比 构成比 发(患)病概率 感染率 相对比(男女比) OR(比值比)/ RR(相对危险度)

定性资料的统计分析 常见错误:直接根据率的大小作出统计推断 例如:用某药治疗某病,甲医院治疗100人,40人有效,乙医院治疗5人,2人有效,两家医院有效率均为40%,从而判断甲、乙医院疗效相差不大。

定性资料的统计分析 另外一个常见错误:用 2分析一切列联表资料 一般来说,2×2列联表一般用 2分析,但是,来自不同研究,分析又略有不同 另外一个常见错误:用 2分析一切列联表资料 一般来说,2×2列联表一般用 2分析,但是,来自不同研究,分析又略有不同 R×C表须根据行列数据性质不同,选择不同方法

定性资料的统计分析 来自横断面研究的资料 两种药物治疗某病患者疗效观察结果 有效 无效 治疗组 30 10 对照组 11 58 该表可以选择一般的 检验公式进行计算

定性资料的统计分析 来自队列研究设计的2×2表 例子: “中美心血管疾病危险因素研究”,研究基线血压对10年后心脑血管事件发生的影响,列表如下

定性资料的统计分析 基线血压状况随访10年心血管脑卒中事件结果 心血管脑卒中事件 基线血压 发生 没有发生 高血压 58 398 正常血压 6 2354 先进行一般 检验,如果P<0.05,进行第2步,否则停止; 计算相对危险度RR(Relative Risk,RR); 用MH 检验RR与1之间的差异是否显著。

定性资料的统计分析 来自病例对照研究设计的2×2表 子代染色体 母亲是否服药 异常 正常 服药 34 68 未服药 30 128 妇女孕前6个月服用某药者其子代染色体异常的调查结果 子代染色体 母亲是否服药 异常 正常 服药 34 68 未服药 30 128 先进行一般 检验,如果P<0.05,进行第2步,否则停止; 计算比值比OR(Odds Risk,OR); 用MH 检验OR与1之间的差异是否显著。

定性资料的统计分析 来自配对研究设计的2×2表 可以有两种方法: 检验两种方法不一致的,可以用McNemar ; 表2 两种检测方法对同一组受试者检验结果 金标准检测 试验标准 + - 31 3 2 40 表1 两种培养基对同一痰液同时培养结果 乙培养基 甲培养基 + - 36 34 135 可以有两种方法: 检验两种方法不一致的,可以用McNemar ; 检验两种检验方法结果是否具有一致性,可以用Kappa检验。

定性资料的统计分析 双向无序R×C资料 心律失常种类与心肌梗塞部位关系 用一般的 检验,或Fisher精确检验 心肌梗塞部位 心律失常种类 下壁 前壁 后壁 心内膜下 窦缓 8 7 2 1 传导阻滞 室早 10 5 用一般的 检验,或Fisher精确检验

定性资料的统计分析 3种药物治疗某病疗效观察结果 可以选用: 秩和检验 Ridit分析 有序变量Logistic分析 单向有序R×C资料 治愈 显效 好转 无效 A 15 49 31 5 B 4 9 50 22 C 1 45 24 可以选用: 秩和检验 Ridit分析 有序变量Logistic分析

定性资料的统计分析 双向有序且属性不同R×C资料 甲状腺肿各年龄组疗效观察 疗效 年龄组 治愈 显效 好转 无效 20~ 41 2 1 40~ 30 60~ 25 按目的不同,可以选择:秩和检验、Ridit分析、有序变量Logistic分析、Spearman秩相关分析、线性趋势检验等方法。

定性资料的统计分析 与配对设计的2×2列联表资料一样,采用一致性检验,或称Kappa检验 双向有序且属性相同R×C资料 脑瘤患者MR与CT诊断结果 CT MR 检出 可疑 未检出 60 4 2 10 1 3 与配对设计的2×2列联表资料一样,采用一致性检验,或称Kappa检验

变量是否可以变换? 答案是肯定的 但是,仅能连续型-> 有序->无序 -> 二分类这样转换,不能作相反方法转换 有的时候,离散型定量变量可以通过适当的变换变成连续型定量变量进行分析 常见例子,通过连续型定量变量“血压值”,变换成二分类变量“是否高血压”

哑变量 Logistic、Cox回归分析中,如果自变量是分类变量,如职业、血型,或特殊目的时,需要变换成多个哑变量才能分析 以血型为例,血型有A、B、AB 、O型,需转换成4-1=3个哑变量(假设X1、X2、X3),具体方法如下

哑变量 哑变量 血型(X)是 X1 X2 X3 A 1 B AB O 这里是选定“O“型为基准转换成哑变量,意味着,假如血型 B AB O 这里是选定“O“型为基准转换成哑变量,意味着,假如血型 X=A,则X1=1,X2=0,X3=0; X=B,则X1=0,X2=1,X3=0; X=AB,则X1=0,X2=0,X3=1; X=O,则X1=0,X2=0,X3=0; 如果分类变量有n个水平, 则需建立n-1个哑变量。

哑变量 哑变量意义 在Logistic回归中,单纯用血型(X)作为自变量,分析结果X对应的OR是1.89,这时是没有办法解释结果的,因为,不知道谁跟谁比,徒有结果,但没有意义

哑变量 但是,如果用3个哑变量作为自变量,结果对应的OR分别是ORX1=1.90、 ORX2=0.89、 ORX3=2.11,这样,我们可以解释为,相对“O”型血,A型血相对危险是1.90倍、B型是0.89倍、AB型是2.11倍。

哑变量 同样,如果连续型定量变量,我们也可以变成哑变量,例如,如果我们单纯用收缩压(SPB)作自变量,计算ORSBP=1.02,按此结果,我们仅能作以下解释:SPB每变化1个单位,危险增加0.02,临床上,我们想知道高血压比正常血压危险增加多少,怎样做?

哑变量 SBP或DBP 哑变量HP 高血压 1 正常 假设ORHP=1.82,我们就可以解读为:高血压是正常血压的危险1.82倍

哑变量 注意事项: 进行哑变量转换后,在最后报告中必须说明转换方法及标准。

谢 谢