第九章 列联表 (定类变量-定类变量).

Slides:



Advertisements
Similar presentations
渡黑水溝 郁永河. 2 戎克船:是明末清初時期往返兩岸的主要交通工具 ∗ 1. 關於台灣的開發歷史,我們到底了解多少呢?不妨試著說出 就我們所知有關台灣開發史的故事、小說、電影、音樂與大 家分享。 ∗ 2. 什麼是黑水溝?黑水溝為什麼會成為大陸移民渡海來臺時最 大的威脅? ∗ 3. 有聽過「六死三留一回頭」、「有唐山公,無唐山嬤」這兩.
Advertisements

歷史二 第一篇 第二章 三代的興衰與文化 第一節 三代興衰與封建體制 第二節 時代劇變與學術教育的發達.
知道什么是遗传 能够分辨什么是相对性状 知道基因、 DNA 和染色体之间的关系 掌握基因的传递过程 课堂总结与课后延伸.
—— 以洞庭湖区为例. 河 流河 流 沼 泽 沼 泽 滩 涂滩 涂 湖泊 这些美丽的风景图片反映的是什么景观?
财务管理 利 润 分 配 利 润 分 配 嘉善中专 杨晓燕. 二、利润分配的项目及顺序 第三节 利润分配 一、利润分配的原则 财务管理 >> 第六章 >> 第三节 三、利润分配政策及影响因素.
波斯希腊 波斯钱币 ( 绵羊 ) 马其顿钱币 ( 山羊 ). 波斯希腊 波斯希腊 亚历山大击败波斯王大利乌三世 (333BC)
                                                 伊朗 的今生 与前世 (2)
导 游 基 础 知 识.
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
客家文化的內涵與傳播 潘朝陽 臺灣師大國際與僑教學院院長 臺灣師大東亞系、地理系教授 臺灣師大全球客家文化研究中心主任
桃園國際機場 通行證規定教育訓練簡報.
第一节 两者之间的差异分析 第二节 总体内部的差异分析 第三节 计算器的使用
─視覺藝術的元素.
第五单元 社会生活的变迁 第1课时 衡量变化的尺子 ——— 时间和纪年 新围初中 王济洪.
歷史建築清水國小宿舍群修復工程 施工說明會
高雄市小港區海汕國民小學 第一期校舍新建工程 工程現況簡報
第四章 從分裂到統一 第一節 漢唐之際的大變動
第四章 從分裂到統一 第一節 漢唐之際的大變動
耐人尋味的耶穌基督.
外国小说话题突破系列之七 情感.
一般纳税人增值税 纳税申报表填写指引 白银高新区国税局 纳税服务科 2016年5月.
第三章 帝國體制與天下秩序 第一節 大一統帝國的出現與皇帝制度的確立
第7课 古罗马的政制与法律.
第二单元 商鞅变法 第1课 改革变法风潮与秦国历史机遇(背景) 第2课 “为秦开帝业”──商鞅变法(内容)
内 容 ● 民间非营利组织会计实务操作 ● 项目会计核算中注意事项 ● 社会组织年检报告的填列 ● 社会组织评估中财务资产指标的解释
荆轲刺秦王 《战国策》.
初探逻辑推理 提高思维水平 ——《逻辑和语文学习》
列王紀下8章 啟示錄12章 書念婦人 婦人 死裡復活的兒子 被提的男孩子 七年饑荒 三年半大災難 非利士地 曠野 歸還房屋田地
佛教既是外來宗教, 為何盛行於中國?.
港澳信義會明道小學 天地有情 分享者:徐燦麗老師、 蘇娟玉老師 日期:2005年12月3日 P.1.
第五章 风险与收益.
第二章 三代的興衰與文化 第二節 時代劇變與學術教育的發達
江苏衡鼎律师事务所苏州分所 苏州广正知识产权代理有限公司
上海教育出版社 《历史与社会》九年级(全一册) 教师教材培训 深圳市南山区北师大南山附中 熊菊珍 年 8 月 13 日.
湖北省,简称“鄂”,为中华人民共和国省级行政区。湖北在中国中部、长江中游、洞庭湖以北,介于北纬29°05′至33°20′,东经108°21′至116°07′;北接河南省,东连安徽省,东南和南邻江西、湖南两省,西靠重庆市,西北与陕西省为邻。东西长约740公里,南北宽约470公里,面积18.59万平方公里,占全国总面积的1.95%,居全国第13位。省会是中部地区唯一的副省级城市--武汉市。
现代社会生活中的压力症,是人们身心疾患 发生的根源。在学习企业管理培训课程的时候, 明白了当人们遇上"压力"时,最初的反应便是"
桃園縣龜山鄉文欣國小 校園植物簡介 內庭區.
「但圣灵降临在你们身上,你们就必得着能力,
拟动力试验 伪动力试验,计算机加载器联机试验 地震发生和传播的随机性 周期性加载的加载历程是假定的,与实际地震的非周期反应有很大差别
南亚、中亚 要点·疑点·考点 位置:位于喜马拉雅山以南,印度洋以北,大部分在10°N~30 °N之间 内陆国——尼泊尔、锡金、不丹
新时代的劳动者 杜蒙绮.
目 錄 壹、緣由 貳、問題解析 參、問題歸納 肆、因應對策 伍、評鑑獎勵 陸、追蹤考核 1.
淺談中國繪畫藝術 美術科教學媒體製作: 陳美滿 老師.
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
朝代接龙(排一排,把下列朝代按建立的先后顺序排列)(10分)
我国处理民族关系的基本原则.
回忆与思考: 中国早期政治制度有哪些重要特点? ◇神权与王权结合; ◇以血缘关系为纽带形成国家政治结构;
11 室外装饰设计 本章提要 本章主要讲述了室外装饰设计的含义及其基本特征,室外装饰设计的基本原则,中外室外装饰设计的基本概况,室外装饰设计与室外环境的关系、建筑装饰的细部设计以及店面装饰设计等内容。
新約概論 台中生命之道靈糧堂 2007年3月4日.
第六节 春秋战国时期的社会经济和社会变革.
漢魏間的國際局勢與女性外交 -〈昭君怨〉與悲憤〈胡笳十八拍〉
早期的阿拉伯半島 地理環境: 生活情形 (一)三面環海,大多為荒涼貧瘠的沙漠,不利農耕
高雄醫學大學個人申請不分系招生(薪火A~D組) 助學措施說明
南國被擄( BC共分三批) 巴比倫帝國 猶大 巴比倫 猶大人被擄巴比倫.
桃李春风结子完,到头谁似一盆兰?如冰水好空相妒,枉与他人作笑谈。
亞伯拉罕 摩西 猶太教徒 割禮 + 律法 成為神子民 的記號 神子民的 行為規範 結婚戒指 婚姻守則.
地震 在板塊交接處,因岩層受到外力作用,相互 擠壓或張裂,易造成斷層錯動,同時釋出巨 大的能量,此能量以波的型式並藉由岩層傳
保羅在腓立比的宣教 使徒行傳16:9-34.
新约拱门 1 提前 提后 多 门 教牧书信 帖后 帖前 西 腓 弗 加 林后 林前 罗 启 犹 约叁 约贰 约壹 彼后 彼前 雅 来 希伯来
埃及永生之旅 報告者:陳菱霙.
新約拱門 1 提前 提後 多 門 教牧書信 帖後 帖前 西 腓 弗 加 林後 林前 羅 啟 猶 約叁 約貳 約壹 彼後 彼前 雅 來 希伯來
春雨 (晚雨) 秋雨 (早雨) 雨季 旱季 雨季 陽曆 逾 越 節 五 旬 節 住 棚
緒論:印度佛學源流略講 第一節:原始佛教概論 一、佛陀生平 二、原始佛學 第二節:佛教的發展與傳播 一、部派佛教略說 二、大乘佛教的發展
第二节 海水的运动.
「但圣灵降临在你们身上,你们就必得着能力,
第一章.
五萬人歸回 猶大 巴比倫帝國 波斯帝國 希 被 擄 (1) 被 擄 (2) 被 擄 (3) 歸 回 被擄70年 哈巴谷 俄巴底亞 耶利米
「但聖靈降臨在你們身上,你們就必得著能力,
啟示錄精要 第六講 撒但的結局、審判 ﹝第廿章﹞.
保羅的臨別贈言 使徒行傳20:16 – 21:14.
Presentation transcript:

第九章 列联表 (定类变量-定类变量)

第一节 什么是列联表?

列联表(一个实际例子) 【例】某单位对闲暇时间进行了全面调查,根据不同年龄档和喜爱收看电视节目的类型进行了如下的统计分类 列联频次分布表(表10-2) P269 老年 中年 青年 合计 戏曲 20 10 2 32 歌舞 5 35 60 球赛 27 40 57 124 !常规:行y -希望检验的变量(问卷中问题的选项);列x -分类变量

列联表(一个实际例子) 合计 26 % 48 % (27) (40) (57) (124) 74% 25 % 4 % 19 % 50 % 【例】某单位对闲暇时间进行了全面调查,根据不同年龄档和喜爱收看电视节目的类型进行了如下的统计分类 列联概率分布表(表10-2) P269 老年 中年 青年 合计 戏曲 74% 25 % 4 % 26 % 歌舞 19 % 50 % 61 % 48 % 球赛 7 % 35 % (27) (40) (57) (124) !注意:一般是计算列百分比

什么是列联表? 两个定类变量进行交叉分类的频次分布表。 行变量的类别用 r 表示, ri 表示第 i 个类别 列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频次用 nij 表示 表中列出了行变量和列变量的所有可能的组合,所以称为列联表 一个 r 行 c 列的列联表称为 r  c 列联表 P271: 表10-3

列联表的结构(2   列联表) 一个2   列联表 n11 n12 n11+ n12 n21 n22 n21+ n22 列( cj ) 合计 j =1 j =2 i =1 n11 n12 n11+ n12 i =2 n21 n22 n21+ n22 n11+ n21 n12+ n22 n 列(cj) 行 (ri)

列联表的结构(r  c 列联表) n11 n12 r1 n21 n22 r2 c1 c2 n r 行 c 列的列联表 列(cj) 合计 j =1 j = 2 … i =1 n11 n12 r1 i = 2 n21 n22 r2 : c1 c2 n 列(cj) 行(ri) nij 表示第 i 行第 j 列的观察频数

列联表的分布

列联表的分布(概念要点) 联合分布 边缘分布 条件分布 联合频次分布表:当分布表中每一项表示的是频次nij时 联合概率分布表:当分布表中每一项表示的是概率pij时 边缘分布 y边缘分布:行观察值的合计数的分布 x边缘分布:列观察值的合计数的分布 条件分布 变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布(行百分比或者列百分比) 条件分布中的每一项都是以边缘分布的N1* 、 N2* 或 Nc*为分母,而联合分布中各项,则都是以N为分母。

联合频次分布(图示) 合计 32 60 27 40 57 124 观察频次 y边缘分布 x边缘分布 20 10 2 5 35 老年 中年 青年 合计 戏曲 20 10 2 32 歌舞 5 35 60 球赛 27 40 57 124 x边缘分布

联合概率分布(概念要点) 条件频数反映了数据的分布,但不适合进行对比 为在相同的基数上进行比较,可以计算相应的百分比,称为联合概率分布 x的条件概率:行的每一个观察频数除以相应的行合计数(nij / ri) y的条件概率:列的每一个观察频数除以相应的列合计数( nij / cj ) 总概率:每一个观察值除以观察值的总个数( nij / n )

联合概率分布(图示) 合计 32/124 60/124 27/124 40/124 57/124 1 概率 y边缘分布 x边缘分布 老年 中年 青年 合计 戏曲 20/124 10/124 2/124 32/124 歌舞 5/124 35/124 60/124 球赛 27/124 40/124 57/124 1 x边缘分布

一般只研究控制自变量x之后,因变量y的条件分布。 条件分布(图示) y边缘分布 关于y的条件分布 计算结果见表10-15(P275) 老年 中年 青年 合计 戏曲 20/27 10/40 2/57 32/124 歌舞 5/27 20/40 35/57 60/124 球赛 2/27 20/57 1 一般只研究控制自变量x之后,因变量y的条件分布。

列联表中变量的相互独立性

列联表中变量的相互独立性 合计 32/124 60/124 1 关于y的条件分布 y边缘分布 20/27 10/40 2/57 5/27 计算结果见表10-15(P275) 老年 中年 青年 合计 戏曲 20/27 10/40 2/57 32/124 歌舞 5/27 20/40 35/57 60/124 球赛 2/27 20/57 1 如果选择喜爱节目的比例,对于三代人都是一样的话,称作变量之间是相互独立的,必然存在变量的条件分布等于它的边缘分布。

列联表中变量的相互独立性 如果列联表中的变量相互独立的话(x与y没有关系),则边缘分布与联合分布则满足下面的公式: Pij =Pi* P*j 列百分比 行百分比

期望频次的分布

期望频次的分布(概念要点) 假定行变量和列变量是独立的 一个实际频数 nij 的期望频数 eij ,是总频数的个数 n 乘以该实际频数 nij 落入第 i 行 和第j列的概率,即

期望频次的分布(算例) 合计 32 60 27 40 57 124 期望频次 32×27/124 32×40/124 32×57/124 用表10-8计算 老年 中年 青年 合计 戏曲 32×27/124 32×40/124 32×57/124 32 歌舞 60×27/124 60×40/124 60×57/124 60 球赛 27 40 57 124

第二节 列联表的检验  检验

假设检验的步骤 提出原假设和备择假设 确定适当的检验统计量 规定显著性水平,查表得出拒绝域和临界值 计算检验统计量的值 作出统计判断: 将检验统计量的值与 水平的临界值进行比较,得出接受或拒绝原假设的结论:若样本统计量的值落入拒绝域,则拒绝原假设,接受备择假设;否则,接受H0

研究假设的确定 将列联表中变量之间无关系(或相互独立)作为检验的原假设 H0:Pij =Pi* P*j (行变量与列变量没有关系)

 统计量 用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。  统计量 用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。 当n很大,每格eij都不太小时,服从自由度K=(r-1)(c-1) 的分布 计算公式:

 检验的拒绝域   列联表的检验从内容上看是双边检验,从形式上看是右侧单边检验。 因为从假设上来看,它所检验的是两个变量是否存在关系  检验的拒绝域 列联表的检验从内容上看是双边检验,从形式上看是右侧单边检验。 因为从假设上来看,它所检验的是两个变量是否存在关系 但从列联表  的统计公式来看,只有期望频次与实测频次间的差距越大,才能越否定原假设, 即  >      2 (r-1)(c-1) (r-1)(c-1)

 检验 P285: 例2

使用 统计量检验列联表时, 需要注意的问题? 使用 统计量检验列联表时, 需要注意的问题? 对于2×2列联表,需要用修正的公式: 前面讲的二总体成数差的检验是列联表的 检验的特例。 使用 统计量检验列联表时, eij要保持在一定数目之上, 最好eij5,当出现小于5时,可将期望值偏小的格值合并。 列联表的检验是通过频次,而不是通过相对频次进行的。

第三节 列联表中的相关测量 列联强度

列联表中的相关测量  统计量检验只检验了列联表变量间是否存在关系,而没有测量关系的强度 列联表中的相关测量就是检验变量间关系的强度  统计量检验只检验了列联表变量间是否存在关系,而没有测量关系的强度 列联表中的相关测量就是检验变量间关系的强度 列联表相关测量的指标主要有 以值为基础的相关测量  系数 C 系数 V 系数 以减少误差比例为基础的相关测量 系数

以值为基础的相关测量  系数 C系数 V 系数

 系数 测度 22列联表中数据相关程度的一个量 对于22 列联表, 系数的值在0~1之间  系数计算公式为

 系数(原理分析) a b a + b c d c + d a + c b + d n 一个简化的 22 列联表 因素 Y 因素 X  系数(原理分析) 一个简化的 22 列联表 因素 Y 因素 X 合计 x1 x2 y1 a b a + b y2 c d c + d a + c b + d n

 系数(原理分析) 列联表中每个单元格的期望频数分别为 将各期望频数代入  的计算公式得

 系数(原理分析) 将入 系数的计算公式得  系数(原理分析) 将入 系数的计算公式得 ad 等于 bc ,  = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时|| =1,表明变量X 与 Y 之间完全相关 的实际取值为[-1,+1],但列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可

 系数的缺点 对于2×2列联表,的取值为[-1,+1]; 但当r×c表的格式增多后, 的值将增加,没 有上限。这样系数间就缺乏比较。  系数的缺点 对于2×2列联表,的取值为[-1,+1]; 但当r×c表的格式增多后, 的值将增加,没 有上限。这样系数间就缺乏比较。 因此,对于r×c表将用C系数和V系数测量变量 之间的相关程度。

C系数 用于测度大于22列联表中数据的相关程度 计算公式为 C 的取值范围是 0C<1 C = 0表明列联表中的两个变量独立 不同行和列的列联表计算的列联系数不便于比较

V 系数 计算公式为 V 的取值范围是 0V1 V = 0表明列联表中的两个变量独立 V=1表明列联表中的两个变量完全相关 不同行和列的列联表计算的列联系数不便于比较 当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=

、C、V 系数的比较 同一个列联表,、C、V 的结果会不同 不同的列联表,、C、V 的结果也不同 在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数

、C、V相关测量 (一个实例) 【例3】:P297

以减少误差比例为基础的相关测量 系数

减少误差比例 计算公式为 E1:不知道y与x有关系时,预测y的全部误差 (用边缘分布中的众数来预测) E2:知道y与x有关系后,用x去预测y的全部误差 (用每一列的众数来预测) E1-E1:表示知道y与x有关系后,预测y所减少的误差 :表示所减少的相对误差 ; 其值越大,表示y与x的关系越密切 0 < PRE < 1 用PRE定义的相关程度可以适用于各种层次的变量。

系数 计算公式为 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x 用列联表中的众数来预测E1,预测误差为: 用每一列的众数来预测E2,预测误差为: 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x

系数的意义 表示用x去预测y,可以减少百分之多少的预测误差 =0.30,表示用x去预测y,可以减少30%的预测误差

系数 计算公式为 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x

系数 计算举例: 课后习题一 P306