测光红移估测中的数据挖掘技术和大数据应用

Slides:



Advertisements
Similar presentations
得勝者課程 ~ 說明會 ~. 得勝者 Champions 得勝者致力於  結合學校、家庭與社區等資源  並預備未來的領袖  協助青少年建立品格、提升能力.
Advertisements

不鏽鋼製品食器知多少 ? 黃保林 年 7 月發生台鐵飯盒錳含量超標事件, 8 月又驚傳新北市 贈送的 3 萬多個不鏽鋼便當,錳含量也超標,緊急回收。
騎乘機車安全 交 通 部 公 路 總 局交 通 部 公 路 總 局. 大 綱 一. 緣起 二. 看了再上 ( 騎乘機車準備事項 ) 三. 武功祕笈 ( 煞車之操作及反應三部曲 ) 四. 危機四伏 ( 防禦駕駛 ) 五. 和平共處 ( 路權優先順序 ) 六. 禁止行為 ( 嚴格禁止的行為 ) 七. 保身符.
易腐性商品三階段最佳補貨策略之研究 黃嘉彥 教授 勤益科技大學 研發科技與資訊管理研究所.
第十七章 肾功能不全 (renal insufficiency, RI)
课题1 金属材料 图8-1 东汉晚期的青铜奔马 图8-2 河北沧州的铁狮子.
河南中考电学考题汇总 涉村三中 翟新伟.
普通話水平測試 考試課程與能力等級說明 查詢
餐旅會計學 Ch2 借貸法則.
国民信托•贵州黔南宝山信托贷款集合资金信托计划
第七章 铸锭常见缺陷分析 7.1 偏析 7.2 缩孔与缩松 7.3 裂纹 7.4 气孔 7.5 非金属夹杂物
利率风险衡量.
第九章 算法初步、统计与统计案例、概率 第三节 抽样方法.
第八章 给产品定价 学习目标: 理解三种定价的基本方法,重点掌握损益平衡法; 掌握定价策略; 了解价格调整。
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
问卷调查的规范与技术 问卷调查的规范与技术.
义务教育语文课程标准 修定与发展趋势介绍 华中师范大学 雷 实.
说课课件 感悟工业革命力量,闪耀科技创新光辉 ----《走向整体的世界》教学设计及反思 爱迪生 西门子 卡尔·本茨 诺贝尔 学军中学 颜先辉.
BOSTON 2006年12月特会 主题:丰盛生命的启示 丰盛生命的入门---认识神(周五晚) 丰盛生命的蓝图---神的话(周六下午) 丰盛生命的活出---随从圣灵而行(六晚) 丰盛生命的危机与转机(周日早一)) 丰盛生命的见证(周日早(二))
禽流感.
肾衰竭.
3-3電磁鐵的運用.
國立彰化師範大學教育研究所 學校行政碩士班 碩士論文
南通房地产市场监测周报 彤心策划·市场研究部出品——
咨询企业探索资本运作新模式 查世伟.
99年成語200題庫(21-40).
上 讲 回 顾 近自由电子近似模型 —— 金属中电子受到原子实 周期性势场的作用 —— 假定势场的起伏较小 零级近似
美国史 美利坚合众国创造了一个人类建国史的奇迹,在短短230年的时间从一个被英帝国奴役的殖民地到成为驾驭全世界的“超级大国”、“世界警察”,美国的探索为人类的发展提供了很宝贵的经验。
C06觀課、備課新體驗 元朗朗屏邨東莞學校 (上午及全日制) 2007年3月3日 小學校本課程發展組 說明文寫作.
第十一章机械零件的选材及工艺分析 第一节机械零件的失效分析 机械零件在使用过程中由于种种原因而丧失其规定的功能的现象称为失效。
华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢
构建九年级物理 复习的课堂效率 邵武市明鸿中学 吴丽萍.
生物科 陳鳳娟老師.
99年度學生健檢說明簡報.
认知行为和复发预防策略.
第十八章 萜类和甾族化合物.
第二十一章萜类和甾族化合物 萜类 甾族化合物.
康师傅市场分析.
報告人:古博文 彰師大運動健康研究所副教授 人權教育基金會執行長 100年8月
科技计划体系 与 科技计划管理 浙江省科技厅综合计划处 二OO九年八月
生理学实验模块系统五 体格检查机能模块.
全国教育信息技术重大课题“信息技术支持个性化学习”首席专家
勞基法與員工權益 報告人: 人事室主任任台華 2017/9/12.
北京市第六次全国人口普查领导小组办公室 2010年4月
汽 车 文 化.
SEWM2007中文网页分类评测 江西师范大学参赛队报告
傳統花卉業營運模式 經銷商 批發商 零售商 $x $2x $4x $8x 顧客 種植者.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
中 级 财 务 会 计 李颖琦 上海立信会计学院.
第六次全国人口普查 近期数据处理工作部署 夏雨春 2010年12月28日.
第十七章 欧姆定律 第1节 电流与电压和电阻的关系.
  你知道下列用电器工作时的电流有多大吗? 约5 A 约1 A 约1 A 约2 A 约0.5 A 约0.2 A.
多极矩的相关思考 高飞 年11月8日.
2 数字出版技术国家重点实验室(北大方正集团有限公司)
红外天文小卫星(NICE) Near-Infrared Chinese Experiment
102-2金融法規(2~4) ~03..
Training Project 05 培训项目 政策市场培训 汽车行业细分市场分析 汽车行业专项政策解读 市场决策流程管理
《讓愛走動》 走過傷心,走過淚水 讓每一顆心,再次飛起來 用你的心,伸出你手 讓每個靈魂,再次活過來 讓愛走動,讓你的愛化成希望的種子 隨風揚起,編織美麗的夢 讓愛走動,讓你的愛化成溫暖的擁抱 綻放陽光,編織神所造的夢.
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
漁 父 滄浪之水濁兮,可以濯吾足。 宋 無款 溪旁閒話
例  一导体球半径为 R ,带电量 q ,在离球心 O
本章重点学习数控机床的机械组成、加工特点、技术参数以及主要功能。 数控机床机械组成与技术参数 1 数控机床机械结构与重要功能 2.
网络营销管理及市场机会探讨 冯英健 2005年4月9日 首页.
4-4 電阻 課文重點: 1.電阻 2.歐姆定律.
青少年父母的迷惘:除了say no我們還可以教孩子什麼?
古佳怡 AI 人工智慧.
指導老師:陳永進老師 朝陽科技大學98學年度第一學期
第一章 绪论 学 习 指 导 本章学习目的是了解本课程的性质和任务。学习要求是懂得互换性的含义;了解互换性与标准化的关系及其在现代化生产中的重要意义;了解优先数的基本原理及其应用。
精進優質 計畫方案 104-1良師甲工精進教學計畫 計畫目標 各教學單位辦理教師增能研習,期能對新課程的架構與 精神有更深一層的認知與準備。
环己酮 cyclohexanone.
Presentation transcript:

测光红移估测中的数据挖掘技术和大数据应用 韩 波 武汉大学 国际软件学院

大纲 1 大数据时代的测光红移估测背景 2 动态KNN 3 优化训练集 4 KNN预测与SVM分类的结合 5 决策树与多维测光红移估测

背景 多个大型巡天望远镜获得了海量的测光数据,如SDSS,WISE,UKIRT等 在海量数据的基础上,KNN取得了比其他高级数据挖掘方法(RBF network, SVM, linear regression, MLP, REPTree 等)更准确的测光红移估测 数据越海量、丰富,模型越简单 类星体的测光红移估测中存在catastrophic failure问题 多源数据融合能提高类星体测光红移估测精度,但不是容括所有多源数据属性就可以产生最准确的估测

动态KNN KNN描述及图 KNN算法中不同的K值对估测结果有着巨大的影响,一般的做法是枚举各个值以寻找最佳的K值,即每次K确定后就不再发生变化。

动态KNN 一般来说某一测试样本的距离小于某一值的最近邻居的数目是不一样的,这里将与测试样本的距离小于某一阈值的最近邻居称为真实邻居,于是如果固定K为某一个值,就可能会出现测试样本的真实邻居数目小于K的情况,这种情况下K个最近邻居中就有些与估测样本的距离相差较大的样本,这些可以称为假邻居。这些假邻居在逻辑上是会影响KNN算法对某些样本的估测精度的。 因此我们将进行K值动态变化的尝试,即不再选取固定K个最近邻节点作为邻居,而选取距离小于某一值D的节点作为邻居,以符合条件的邻居数作为K值。

动态KNN SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用4C+r作为特征向量 阈值maxDis取为0.09

优化训练集 当训练集跟测试集都比较庞大时,KNN算法将需要巨大的内存与计算量,因此我们将尝试优化缩小训练集,以减少占用,同时也降低计算量,并在精度上也有一定的提高。

优化训练集 步骤: 创建一个空的样本集E,选定一个阈值maxdz; 将C作为训练集,D作为测试集,用最近邻居算法对D进行测光红移估测,得到测光红移值,再结合D中的真实红移值计算每一个样本的 值,对于 小于maxdz的测试样本,认为它的估测准确度较高,从而认为它的估测来源有较高的可信度,因此将它的最近邻居加入到样本集E中; 反过来,将D作为训练集,C作为测试集,再做一次上述步骤中的操作,即用最近邻居算法对C进行测光红移估测,得估测到测光红移值,再结合C 中的真实红移值计算每一个样本的 值,对于 小于maxdz的测试样本,将它的最近邻居加入到样本集E中; 去掉样本集E中的重复样本后得到样本集E’;

优化训练集 SDSS多次随机独立重复实验: 10万多个样本的2/3training 1/3test 采用5Mag作为特征向量 阈值maxDis取为0.06 训练集缩小到约为原来的约50%

KNN+SVM 用KNN算法估测类星体的测光红移时,将出现catastrophic failure现象(k=1)

KNN+SVM KNN+SVM算法思路

KNN+SVM KNN+SVM算法处理后半边效果

决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 交叉证认: 有效 RMSE(SDSS)=0.259 RMSE(SDSS_UKIDSS_WISE)=0.099 但交叉数据量锐减 SDSS:105783 SDSS_UKIDSS_WISE: 24089

决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 可控精度下的条件适用: Test SDSS_UKIDSS SDSS UKIDSS WISE SDSS_UKIDSS_WISE SDSS_WISE UKIDSS_WISE 14

决策树与多维测光红移估测 多个巡天望远镜都提供了测光信息,如何将这些信息组合起来更为准确地估算测光红移? 可控精度下的条件适用:决策树分析 以SDSS为例: 1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9 Then: 85%概率下测光红移估算绝对误差<0.099 2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2 3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627 Then: 89%概率下测光红移估算绝对误差<0.099 …… 15

谢谢!