测光红移估测中的数据挖掘技术和大数据应用

Slides:

Advertisements

Similar presentations

得勝者課程 ~ 說明會 ~. 得勝者 Champions 得勝者致力於  結合學校、家庭與社區等資源  並預備未來的領袖  協助青少年建立品格、提升能力.

Advertisements

不鏽鋼製品食器知多少 ? 黃保林年 7 月發生台鐵飯盒錳含量超標事件， 8 月又驚傳新北市贈送的 3 萬多個不鏽鋼便當，錳含量也超標，緊急回收。

騎乘機車安全交通部公路總局交通部公路總局. 大綱一. 緣起二. 看了再上 ( 騎乘機車準備事項 ) 三. 武功祕笈 ( 煞車之操作及反應三部曲 ) 四. 危機四伏 ( 防禦駕駛 ) 五. 和平共處 ( 路權優先順序 ) 六. 禁止行為 ( 嚴格禁止的行為 ) 七. 保身符.

易腐性商品三階段最佳補貨策略之研究黃嘉彥教授勤益科技大學研發科技與資訊管理研究所.

第十七章肾功能不全（renal insufficiency， RI）

课题1 金属材料图8－1 东汉晚期的青铜奔马图8－2 河北沧州的铁狮子.

河南中考电学考题汇总涉村三中翟新伟.

普通話水平測試考試課程與能力等級說明查詢

餐旅會計學 Ch2 借貸法則.

国民信托•贵州黔南宝山信托贷款集合资金信托计划

第七章铸锭常见缺陷分析 7.1 偏析 7.2 缩孔与缩松 7.3 裂纹 7.4 气孔 7.5 非金属夹杂物

利率风险衡量.

第九章　算法初步、统计与统计案例、概率第三节　抽样方法.

第八章给产品定价学习目标：理解三种定价的基本方法，重点掌握损益平衡法；掌握定价策略；了解价格调整。

張偉豪三星統計服務有限公司執行長 Amos 亞洲一哥

问卷调查的规范与技术问卷调查的规范与技术.

义务教育语文课程标准修定与发展趋势介绍华中师范大学雷实.

说课课件感悟工业革命力量，闪耀科技创新光辉 ----《走向整体的世界》教学设计及反思爱迪生西门子卡尔·本茨诺贝尔学军中学颜先辉.

BOSTON 2006年12月特会主题：丰盛生命的启示丰盛生命的入门---认识神（周五晚）丰盛生命的蓝图---神的话（周六下午）丰盛生命的活出---随从圣灵而行（六晚）丰盛生命的危机与转机（周日早一））丰盛生命的见证（周日早（二））

3-3電磁鐵的運用.

國立彰化師範大學教育研究所學校行政碩士班碩士論文

南通房地产市场监测周报彤心策划·市场研究部出品——

咨询企业探索资本运作新模式查世伟.

99年成語200題庫(21-40).

上讲回顾近自由电子近似模型 —— 金属中电子受到原子实周期性势场的作用 —— 假定势场的起伏较小零级近似

美国史美利坚合众国创造了一个人类建国史的奇迹，在短短230年的时间从一个被英帝国奴役的殖民地到成为驾驭全世界的“超级大国”、“世界警察”，美国的探索为人类的发展提供了很宝贵的经验。

C06觀課、備課新體驗元朗朗屏邨東莞學校 (上午及全日制) 2007年3月3日小學校本課程發展組說明文寫作.

第十一章机械零件的选材及工艺分析第一节机械零件的失效分析机械零件在使用过程中由于种种原因而丧失其规定的功能的现象称为失效。

华南理工大学广东省计算机网络重点实验室成员：蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢

构建九年级物理复习的课堂效率邵武市明鸿中学吴丽萍.

生物科陳鳳娟老師.

99年度學生健檢說明簡報.

认知行为和复发预防策略.

第十八章萜类和甾族化合物.

第二十一章萜类和甾族化合物萜类甾族化合物.

康师傅市场分析.

報告人:古博文彰師大運動健康研究所副教授人權教育基金會執行長 100年8月

科技计划体系与科技计划管理浙江省科技厅综合计划处二OO九年八月

生理学实验模块系统五体格检查机能模块.

全国教育信息技术重大课题“信息技术支持个性化学习”首席专家

勞基法與員工權益報告人：人事室主任任台華 2017/9/12.

北京市第六次全国人口普查领导小组办公室 2010年4月

SEWM2007中文网页分类评测江西师范大学参赛队报告

傳統花卉業營運模式經銷商批發商零售商 $x $2x $4x $8x 顧客種植者.

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心

中级财务会计李颖琦上海立信会计学院.

第六次全国人口普查近期数据处理工作部署夏雨春 2010年12月28日.

第十七章欧姆定律第１节电流与电压和电阻的关系.

　　你知道下列用电器工作时的电流有多大吗？约5 A 约1 A 约1 A 约2 A 约0.5 A 约0.2 A.

多极矩的相关思考高飞年11月8日.

2 数字出版技术国家重点实验室(北大方正集团有限公司)

红外天文小卫星（NICE） Near-Infrared Chinese Experiment

102-2金融法規(2~4) ~03..

Training Project 05 培训项目政策市场培训汽车行业细分市场分析汽车行业专项政策解读市场决策流程管理

《讓愛走動》走過傷心，走過淚水讓每一顆心，再次飛起來用你的心，伸出你手讓每個靈魂，再次活過來讓愛走動，讓你的愛化成希望的種子隨風揚起，編織美麗的夢讓愛走動，讓你的愛化成溫暖的擁抱綻放陽光，編織神所造的夢.

聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝.

漁父滄浪之水濁兮，可以濯吾足。宋無款溪旁閒話

例　一导体球半径为 R ，带电量 q ，在离球心 O

本章重点学习数控机床的机械组成、加工特点、技术参数以及主要功能。数控机床机械组成与技术参数 1 数控机床机械结构与重要功能 2.

网络营销管理及市场机会探讨冯英健 2005年4月9日首页.

4-4 電阻課文重點： 1.電阻 2.歐姆定律.

青少年父母的迷惘：除了say no我們還可以教孩子什麼？

古佳怡 AI 人工智慧.

指導老師：陳永進老師朝陽科技大學98學年度第一學期

第一章绪论学习指导本章学习目的是了解本课程的性质和任务。学习要求是懂得互换性的含义；了解互换性与标准化的关系及其在现代化生产中的重要意义；了解优先数的基本原理及其应用。

精進優質計畫方案 104-1良師甲工精進教學計畫計畫目標各教學單位辦理教師增能研習，期能對新課程的架構與精神有更深一層的認知與準備。

环己酮 cyclohexanone.

Presentation transcript:

测光红移估测中的数据挖掘技术和大数据应用韩波武汉大学国际软件学院

大纲 1 大数据时代的测光红移估测背景 2 动态KNN 3 优化训练集 4 KNN预测与SVM分类的结合 5 决策树与多维测光红移估测

背景多个大型巡天望远镜获得了海量的测光数据，如SDSS，WISE，UKIRT等在海量数据的基础上，KNN取得了比其他高级数据挖掘方法(RBF network, SVM, linear regression, MLP, REPTree 等)更准确的测光红移估测数据越海量、丰富，模型越简单类星体的测光红移估测中存在catastrophic failure问题多源数据融合能提高类星体测光红移估测精度，但不是容括所有多源数据属性就可以产生最准确的估测

动态KNN KNN描述及图 KNN算法中不同的K值对估测结果有着巨大的影响，一般的做法是枚举各个值以寻找最佳的K值，即每次K确定后就不再发生变化。

动态KNN 一般来说某一测试样本的距离小于某一值的最近邻居的数目是不一样的，这里将与测试样本的距离小于某一阈值的最近邻居称为真实邻居，于是如果固定K为某一个值，就可能会出现测试样本的真实邻居数目小于K的情况，这种情况下K个最近邻居中就有些与估测样本的距离相差较大的样本，这些可以称为假邻居。这些假邻居在逻辑上是会影响KNN算法对某些样本的估测精度的。因此我们将进行K值动态变化的尝试，即不再选取固定K个最近邻节点作为邻居，而选取距离小于某一值D的节点作为邻居，以符合条件的邻居数作为K值。

动态KNN SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用4C+r作为特征向量阈值maxDis取为0.09

优化训练集当训练集跟测试集都比较庞大时，KNN算法将需要巨大的内存与计算量，因此我们将尝试优化缩小训练集，以减少占用，同时也降低计算量，并在精度上也有一定的提高。

优化训练集步骤：创建一个空的样本集E，选定一个阈值maxdz；将C作为训练集，D作为测试集，用最近邻居算法对D进行测光红移估测，得到测光红移值，再结合D中的真实红移值计算每一个样本的值，对于小于maxdz的测试样本，认为它的估测准确度较高，从而认为它的估测来源有较高的可信度，因此将它的最近邻居加入到样本集E中；反过来，将D作为训练集，C作为测试集，再做一次上述步骤中的操作，即用最近邻居算法对C进行测光红移估测，得估测到测光红移值，再结合C 中的真实红移值计算每一个样本的值，对于小于maxdz的测试样本，将它的最近邻居加入到样本集E中；去掉样本集E中的重复样本后得到样本集E’；

优化训练集 SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用5Mag作为特征向量阈值maxDis取为0.06 训练集缩小到约为原来的约50%

KNN+SVM 用KNN算法估测类星体的测光红移时，将出现catastrophic failure现象(k=1)

KNN+SVM KNN+SVM算法思路

KNN+SVM KNN+SVM算法处理后半边效果

决策树与多维测光红移估测多个巡天望远镜都提供了测光信息，如何将这些信息组合起来更为准确地估算测光红移？交叉证认：有效 RMSE(SDSS)=0.259 RMSE(SDSS_UKIDSS_WISE)=0.099 但交叉数据量锐减 SDSS:105783 SDSS_UKIDSS_WISE: 24089

决策树与多维测光红移估测多个巡天望远镜都提供了测光信息，如何将这些信息组合起来更为准确地估算测光红移？可控精度下的条件适用： Test SDSS_UKIDSS SDSS UKIDSS WISE SDSS_UKIDSS_WISE SDSS_WISE UKIDSS_WISE 14

决策树与多维测光红移估测多个巡天望远镜都提供了测光信息，如何将这些信息组合起来更为准确地估算测光红移？可控精度下的条件适用：决策树分析以SDSS为例： 1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9 Then: 85%概率下测光红移估算绝对误差<0.099 2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2 3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627 Then: 89%概率下测光红移估算绝对误差<0.099 …… 15

谢谢！