线性相关分析.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
第十一章 两变量关联性分析.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
定积分的换元法 和分部积分法 换元公式 分部积分公式 小结 1/24.
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
第三节 函数的求导法则 一 函数的四则运算的微分法则 二 反函数的微分法则 三 复合函数的微分法则及微分 形式不变性 四 微分法小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第十九章 直线相关和回归分析.
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
第八章 相关分析和回归分析 第一节:相关的意义、概念和种类 第二节:相关图表和相关系数 第三节:回归分析
第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。
统计学期末复习
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第十章 方差分析.
医学统计学 6 主讲人 陶育纯 医学统计学 6 主讲人 陶育纯
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
(实验二) 回归函数的线性性、 误差的独立性和方差齐性的诊断
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第四章 多元线性回归分析.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
1.4.3正切函数的图象及性质.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
实验二 基尔霍夫定律 510实验室 韩春玲.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第八章 假设检验 8.3 两个正态总体参数的假设检验.
相关关系 主讲人:孟迎芳.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Presentation transcript:

线性相关分析

第一节 线性相关系数 一、概念:相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。 相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关, r绝对值反应两变量间相关关系的密切程度,绝对值越大说明相关关系越密切, r的绝对值等于1为完全相关,r=0为零相关。

二、 计算公式 样本相关系数的计算公式为 (13-1)

例13-2 (续例13-1)计算表13-1中体重指数和收缩压的相关系数。 解: 1.绘制散点图,观察两变量之间是否有线性趋势。 从图13-1可见,体重指数与收缩压之间呈线性趋势,且方向相同,为正相关。 2.计算相关系数。从表13-1的合计栏中,已得出基本数据:

三、应用线性相关系数r时应注意的问题: 1. r只表示两个服从正态分布的随机变量之间线性关系的密切程度和相关方向,r=0只能说X与Y之间无线性关系,并不能说X与Y之间无任何关系。 2. 相关关系并不一定是因果关系。相关分析的任务就是对相关关系给以定量的计算和描述。

第二节 相关系数的假设检验

(13-2)

例13-3 (续例13-1) 根据样本相关系数,对总体相关系数=0进行假设检验。 解: 1. t检验法 检验步骤如下: (1)建立假设,确定检验水准 。 H0: =0(变量间不存在线性相关关系); H1: 0(变量间有线性相关关系);

检验步骤 (2)计算检验统计量 本例n=16,r=0.91,按公式(13-2)

2. 查表法 根据自由度 ,查附表13相关系数r界值表, , ,本例r =0. 91,所以P<0 2. 查表法 根据自由度 ,查附表13相关系数r界值表, , ,本例r =0.91,所以P<0.01,按 水准拒绝H0,接受H1,与 t 检验结论相同。

第四节 相关系数的可信区间 统计推断包括假设检验和区间估计,前面已学过相关系数的假设检验,假设检验只是回答了总体相关系数 是否存在的问题,如果想知道的 大致范围,就需要计算的 可信区间。 由于r呈非正态分布,故不能直接用r求可信区间,而是首先对r作Z转换,以消除这种偏态 式中为tanh为双曲正切函数,tanh-1为反双曲正切函数, SZ为Z的标准误。

转换后的Z统计量服从方差为 的正态分布,用下式计算Z统计量总体均数的100(1- )%可信区间。当 时,即为95%可信区间。

最后,对此区间的上下限作反变换, 例13-4 (续例13-1) 例13-2中,求得样本相关系数r=0.9110,求 的 95%可信区间。

第五节 直线回归与相关应用的注意事项

1.根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。

相关关系不一定是因果关系,可能仅是表面上的伴随关系,或两个变量同时受另一因素的影响,如小孩的身高和小树的树高同时受时间的影响,在校儿童的鞋的大小和阅读技能同时受年龄的影响。 不能只根据相关系数r的绝对值的大小来推断两事物现象之间有无相关以及相关的密切程度,而必须对r进行相关系数的假设检验。另外,不要把相关系数的显著性误解为两事物或现象相关的强度,例如对于相关系数的假设检验来说,P<0.01比P<0.05更有理由认为相关关系成立,但并不能得出前者比后者相关关系更密切的结论,相关关系的强度是用r的绝对值来反映的。

2.进行相关、回归分析前应绘制散点图—第一步 (1) 散点图可考察两变量是否有直线趋势; (2) 可发现异常点(outlier)。 散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。

3.资料的要求 直线相关分析要求 X与Y 服从双变量正态分布; 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。

4.结果解释及正确应用 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。