模型分类问题 Presented by 刘婷婷 苏琬琳
问题重述 给定3588个数据,其含义是1-582组数据来自总体X ,583-3588组数据来自总体Y 。根据这些数据,请大家完成下面的问题: 1)至少选择三个模型区分这两类数据,并比较结果。 2)将3588个数据随机分成测试集和训练集,使用测试集重新讨论1的最优模型,同时使用训练集检验模型,并讨论结果。
模型分类问题 1. 欧氏距离分析法 2. 判别分析法 3. 聚类分析法
欧氏距离差异性检验
欧氏距离比较法 两个独立样本的非参数检验
判别分析法 判别归类 定义距离 参数估计
具体步骤 抽样 估计 判别函数 判别分类 误差计算 采用简单随机抽样法,控制训练集的数据大约是总数据量的70% 利用matlab中classify函数,估计参数并对测试集中的数据进行判别 估计 判别函数 与给定原数据比较分析误差,误判率为15.7% 判别分类 误差计算
聚类分析 相似物体的集合称为类 对样品的聚类与距离有关 将N个变量看成N类 距离近的样品为一类 规定类与类的距离 将距离最近的合并 直到合并成一类
聚类谱系图
结果分析
三种方法的比较 欧氏距离分析 判别分析 聚类分析 可以对新数据进行判别归类 从数据本身出发 直观地描述数据的差别
Thank You !