第十八章 判别分析 Discriminant Analysis
Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant analysis Stepwise discriminant analysis
讲述内容 第一节 Fisher 判别 第二节 最大似然判别法 第三节 Bayes 公式判别法 第四节 Bayes 判别 第五节 逐步判别 第六节 判别分析中应注意的问题
目的:作出以多个判别指标判别个体分类的 判别函数或概率公式。 资料:个体分两类或多类,判别指标全部为 数值变量或全部为分类变量。 用途:解释和预报(主要用于计量诊断)。 分类(经典): Fisher 判别和 Bayes 判别。
1. 计量资料判别分析。目的是作出以定量指标 判别个体属性分类或等级的判别函数。 按资料类型分 : 2. 计数资料判别分析。目的是作出以定性或等 级指标判别个体属性分类或等级的 概率公式 。
按方法名分 1. Fisher 判别 2. 最大似然判别法 3. Bayes 公式判别法 4. Bayes 判别 5. 逐步判别
第一节 Fisher 判别 适用于指标为定量指标的两类判别 (或多类判别)
1. Fisher 判别的原理 一、两类判别
例 18-1 收集了 22 例某病患者的三 个指标( X 1 , X 2 , X 3 )的资料列于表 ,其中前期患者( A )类 12 例,晚期患 者( B )类 10 例。试作判别分析。
表 例患者三项指标观察结果( Z c = )
表 18-2 变量的均数及类间均值差 ( 1 )计算变量的类均数及类间均值差 D j , 计算结果列于表 18-2 。
( 2 )计算合并协方差矩阵 : 按公式( 18-4 ),例如: 代入公式( 18-3 )得 得到合并协方差阵
二、判别效果的评价 用误判概率 P 衡量 回顾性误判概率估计往往夸大判别效果。
第二节 最大似然判别法 ( 优度法 ) 适用于指标为定性指标的两类判别或多类判别。
资料:个体分两类或多类,判别指标全部为定性或等级 资料。 原理:用独立事件的概率乘法定理得到判别对象归属某 类的概率。
2. 判别规则
3. 最大似然判别法的应用 例 18-2 有人试用 7 个指标对 4 种类型的阑尾 炎作鉴别诊断,收集的 5668 例完整、确诊的 病史资料归纳于 表 18-3 。
表 例不同型阑尾炎病例的症状发生频率( % )
如某病例昨晚开始出现右下腹痛、呕吐等症状, 大便正常。经检查,右下腹部压痛,肌性防御( + )、 压跳痛( + ),体温 36.6 ℃,白细胞 23.7×10 9 /L 。 根据表 18-3 得
第三节 Bayes 公式判别法 适用于指标为定性指标的两类判别或多类判别。
资料:个体分两类或多类,判别指标全部为定性 或等级资料。 原理:条件概率 + 事前概率(各病型或病种的总 体构成比)
判别规则: 举例说明:例 18-3
对例 18-2 中给出的待判病有
利用公式( 18-8 )计算得
注意:
第四节 Bayes 判别 适用于指标为定量指标的多类判别(也可用于两类判别)
先验概率确定: 1. 等概率(有选择性偏倚); 2. 频率估计。 判别规则:归属最大 Yg 类。 应用:快速、正确。 资料:个体分 G 类,判别指标定量。 原理: Bayes 准则。 结果: G 个判别函数
例 18-4 欲用 4 个指标鉴别 3 类疾病, 现收集 17 例完整、确诊的资料, 见表 18-4 。试建立判别 Bayes 函 数。
Bayes 判别函数 判别效果评价:误判概率 (回顾性 估计,见表 18-6 )。误判概率的刀切法估 计为 。
第五节 逐步判别
目的:选取具有判别效果的指标建立判别函数。 应用: 只适用于 Bayes 判别。 原理: Wilks 统计量 , F 检验。
例 18-5 利用表 18-4 的数据作逐步 Bayes 判别。 Bayes 判别函数:
判别效果评价,误判概率为 1/17=5.88% (回顾性估计,见表 18-8 )。误判概率 的刀切法估计 17.6% 。与例 18-4 比较, 变 量筛选后,尽管判别指标由 4 个减为 2 个, 判别效能却提高了。由此可见,判别指 标并不是越多越好。
第六节 判别分析中应注意的问题