测光红移估测中的数据挖掘技术和大数据应用 韩 波 武汉大学 国际软件学院
大纲 1 大数据时代的测光红移估测背景 2 动态KNN 3 优化训练集 4 KNN预测与SVM分类的结合 5 决策树与多维测光红移估测
背景 多个大型巡天望远镜获得了海量的测光数据,如SDSS,WISE,UKIRT等 在海量数据的基础上,KNN取得了比其他高级数据挖掘方法(RBF network, SVM, linear regression, MLP, REPTree 等)更准确的测光红移估测 数据越海量、丰富,模型越简单 类星体的测光红移估测中存在catastrophic failure问题 多源数据融合能提高类星体测光红移估测精度,但不是容括所有多源数据属性就可以产生最准确的估测
动态KNN KNN描述及图 KNN算法中不同的K值对估测结果有着巨大的影响,一般的做法是枚举各个值以寻找最佳的K值,即每次K确定后就不再发生变化。
动态KNN 一般来说某一测试样本的距离小于某一值的最近邻居的数目是不一样的,这里将与测试样本的距离小于某一阈值的最近邻居称为真实邻居,于是如果固定K为某一个值,就可能会出现测试样本的真实邻居数目小于K的情况,这种情况下K个最近邻居中就有些与估测样本的距离相差较大的样本,这些可以称为假邻居。这些假邻居在逻辑上是会影响KNN算法对某些样本的估测精度的。 因此我们将进行K值动态变化的尝试,即不再选取固定K个最近邻节点作为邻居,而选取距离小于某一值D的节点作为邻居,以符合条件的邻居数作为K值。
动态KNN SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用4C+r作为特征向量 阈值maxDis取为0.09
优化训练集 当训练集跟测试集都比较庞大时,KNN算法将需要巨大的内存与计算量,因此我们将尝试优化缩小训练集,以减少占用,同时也降低计算量,并在精度上也有一定的提高。
优化训练集 步骤: 创建一个空的样本集E,选定一个阈值maxdz; 将C作为训练集,D作为测试集,用最近邻居算法对D进行测光红移估测,得到测光红移值,再结合D中的真实红移值计算每一个样本的 值,对于 小于maxdz的测试样本,认为它的估测准确度较高,从而认为它的估测来源有较高的可信度,因此将它的最近邻居加入到样本集E中; 反过来,将D作为训练集,C作为测试集,再做一次上述步骤中的操作,即用最近邻居算法对C进行测光红移估测,得估测到测光红移值,再结合C 中的真实红移值计算每一个样本的 值,对于 小于maxdz的测试样本,将它的最近邻居加入到样本集E中; 去掉样本集E中的重复样本后得到样本集E’;
优化训练集 SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用5Mag作为特征向量 阈值maxDis取为0.06 训练集缩小到约为原来的约50%
KNN+SVM 用KNN算法估测类星体的测光红移时,将出现catastrophic failure现象(k=1)
KNN+SVM KNN+SVM算法思路
KNN+SVM KNN+SVM算法处理后半边效果
决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 交叉证认: 有效 RMSE(SDSS)=0.259 RMSE(SDSS_UKIDSS_WISE)=0.099 但交叉数据量锐减 SDSS:105783 SDSS_UKIDSS_WISE: 24089
决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 可控精度下的条件适用: Test SDSS_UKIDSS SDSS UKIDSS WISE SDSS_UKIDSS_WISE SDSS_WISE UKIDSS_WISE 14
决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 可控精度下的条件适用:决策树分析 以SDSS为例: 1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9 Then: 85%概率下测光红移估算绝对误差<0.099 2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2 3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627 Then: 89%概率下测光红移估算绝对误差<0.099 …… 15
谢谢!