应用AutoClass算法聚类分析SDSS巡天的恒星数据

Slides:



Advertisements
Similar presentations
1/67 美和科技大學 美和科技大學 社會工作系 社會工作系. 2/67 社工系基礎學程規劃 ( 四技 ) 一上一下二上二下三上 校訂必修校訂必修 英文 I 中文閱讀與寫作 I 計算機概論 I 體育 服務與學習教育 I 英文 II 中文閱讀與寫作 II 計算機概論 II 體育 服務與學習教育 II.
Advertisements

§ 3 格林公式 · 曲线积分 与路线的无关性 在计算定积分时, 牛顿 - 莱布尼茨公式反映 了区间上的定积分与其端点上的原函数值之 间的联系 ; 本节中的格林公式则反映了平面 区域上的二重积分与其边界上的第二型曲线 积分之间的联系. 一、格林公式 二、曲线积分与路线的无关性.
公司為社團法人 股東之人數 林宜慧 陳冠蓉. 公司之意義  根據公司法第一條規定 : 「本法所 稱公司,謂以營利為目的,依照 本法組織、登記、成立之社團法 人。」
2 、 5 的倍数特征 集合 2 的倍数(要求) 在百数表上依次将 2 的倍数找出 并用红色的彩笔涂上颜色。
專業科目必修 管理學概論、化 妝品行銷與管理、 專題討論、藥妝 品學、流行設計、 專題講座、時尚 創意造型與實務 專業科目必修 化妝品法規、生 理學、化妝品原 料學、化妝品有 效性評估、時尚 化妝品調製與實 務、藝術指甲、 生物化學概論、 美容經絡學、校 外實習 專業科目必修 應用色彩學、化 妝品概論、時尚.
聖若翰天主教小學 聖若翰天主教小學歡迎各位家長蒞臨 自行分配中一學位家長會 自行分配中一學位家長會.
認識食品標示 東吳大學衛生保健組製作.
急性支气管炎 蒋福家.
第二十三章 皮肤附属器疾病 主讲 朱姗姗.
地方自治團體之意義與組織 范文清 SS 2011.
颞下颌关节常见病.
「健康飲食在校園」運動 2008小學校長高峰會 講題:健康飲食政策個案分享 講者:啟基學校-莫鳳儀校長 日期:二零零八年五月六日(星期二)
清代章回小說----儒林外史 製作群:侑桂、品希、萱容、怡靜、佩涓、凸凸.
致理科技大學保險金融管理系 實習月開幕暨頒獎典禮
龙星课程—肿瘤生物信息学上机课程 曹莎
☆ 104學年度第1學期 活動藏寶圖 ☆ II III IV V 找到心方向-談壓力調適 陳佩雯諮商心理師
102均質化 職涯發展說明會 藝術群-科簡介 青年高中 實習主任 洪志耀.
脊柱损伤固定搬运术 无锡市急救中心 林长春.
行政訴訟法 李仁淼 教授.
第一节 工业的区位选择 一、工业的主要区位因素 1、工业区位选择应注意的问题 2、影响工业布局的主要区位因素 3、不同工业部门的区位选择
XXX分析室组长竞聘 演讲人: XXX
結腸直腸腫瘤的認知.
經歷復活的愛 約翰福音廿一1-23.
大学英语教学在学分制教学的比重 类别 文科 理科 大学英语 《课程要求》 总学时 周学时 总学分
郭詩韻老師 (浸信會呂明才小學音樂科科主任)
《政府采购非招标采购方式管理办法》的理解与适用
五大段 创世记 至 出埃及 过红海 至 士师时代 列王时代至 两约之间 耶稣降生 至 复活 耶稣升天 至 再来 圣经大纲:第二集 概观.
務要火熱服事主.
通識教育科 單元三 現代中國 主題1:中國的改革開放 課題(四)︰ 中國的綜合國力及外交
富力地产销售一部 ——各项目广告策划案 ——
作业现场违章分析.
蒙福夫妻相处之道 经文:弗5:21-33.
基于课程标准的教学与评价: 政策执行讲评与后续要求
2. 戰後的經濟重建與復興 A. 經濟重建的步驟與措施 1.
好好學習 標點符號 (一) 保良局朱正賢小學上午校.
學生:蔡耀峻、許裕邦 座號:23號、21號 指導老師:黃耿凌 老師
快遞貨物常見之偽禁藥簡介與 通關注意事項 報告人:臺北關快遞機放組快遞一課 于志安 1.
4. 聯合國在解決國際衝突中扮演的角色 C. 聯合國解決國際衝突的個案研究.
6.5滑坡 一、概述 1.什么是滑坡? 是斜坡的土体或岩体在重力作用下失去原有的稳定状态,沿着斜坡内某些滑动面(滑动带)作整体向下滑动的现象。
行政處分6 – 行政執行 范文清 SS 2011.
新陸書局股份有限公司 發行 第十九章 稅捐稽徵法 稅務法規-理論與應用 楊葉承、宋秀玲編著 稅捐稽徵程序.
舊制勞退準備金提繳與集體勞動權行使 明理法律事務所 李瑞敏律師 明理法律事務所 1 1.
破漏的囊袋.
民法第四章:權利主體 法人 楊智傑.
探討論文分享 組員: 6號 王佳驊 10號 吳育甄 40號 蘇小婷.
数据挖掘工具性能比较.
1085至1125年间的官员地域分布与社会关系 1.
四年級 中 文 科.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
生鲜谈判.
SOA – Experiment 2: Query Classification Web Service
聖本篤堂 主日三分鐘 天主教教理重温 (94) (此簡報由聖本篤堂培育組製作).
威爾斯親王醫院 住院病人意見調查 2014年4月至6月 7號床.
聖公會聖匠堂長者地區中心 長者支援服務隊 香港房屋協會 家維邨義工隊
安慰能力測試 我感到非常孤單 為何要這麼痛苦?做人毫無價值,活著根本沒有意思。 我拖累了你。 假如我不在,情況會如何呢?
聖誕禮物 歌羅西書 2:6-7.
7-7 小三和弦/增三和弦/減三和弦.
模型分类问题 Presented by 刘婷婷 苏琬琳.
「傳心傳意 2003」 工商機構創意義工服務計劃比賽 計劃主題 : ( I ) 減少廢物 ( II ) 節省能源 ( III ) 愛護大自然
用计算器开方.
实体描述呈现方法的研究 实验评估 2019/5/1.
圣依纳爵堂 主日三分钟 天主教教理重温 (95) (此简报由香港圣本笃堂培育组制作).
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
探討論文分享 組員: 6號 王佳驊 10號 吳育甄 40號 蘇小婷.
依撒意亞先知書 第一依撒意亞 公元前 740 – 700 (1 – 39 章) 天主是宇宙主宰,揀選以民立約,可惜他們犯罪遭
基督是更美的祭物 希伯來書 9:1-10:18.
明愛屯門馬登基金中學 中國語文及文化科 下一頁.
經文 : 創世紀一章1~2,26~28 創世紀二章7,三章6~9 主講 : 周淑慧牧師
圣经概論 09.
Presentation transcript:

应用AutoClass算法聚类分析SDSS巡天的恒星数据 严太生 2008年11月于太原

提纲 恒星自动分类/聚类的背景 AutoClass算法 SDSS数字巡天及参数选取 AutoClass分类结果及讨论 结论

1 恒星自动分类/聚类的背景 一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。 1 恒星自动分类/聚类的背景 一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。 随着从地面和空间观测设备获取大量的数据,构建大的完整的样本成为可能。 为了提高分类/聚类的效率,我们需要依靠区别性很好的分类器。

相关的恒星自动分类/聚类工作列举如下: A)Bazarghan (2008) 运用神经网络对从O型星到M型星的5000个光谱分类成158个光谱类型。 B)应用GLIMPSE中红外巡天数据,Mercer (2005) 运用自动检测算法在银河系星系盘中发现了一些新星团。 C)使用支持矢量机算法,Wozniak (2004) 从北天变星巡天数据中发现8678个慢变星。 D)Froebrich (2008) 通过分析恒星密度图和颜色-颜色/星等图,对银河系新的星团进行分类。 E)Jaschek (1990) 撰写了一本关于恒星分类的工具,方法和结果等综合小册子。

2 AutoClass算法介绍 AutoClass是基于Bayesian理论的一种非监督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据, AutoClass应用高斯分布,而对于离散型数据应用Bernoulli分布。

AutoClass的几个关键特性如下: A)自动确定类别的数目; B)能使用实型的和离散型的混合数据; C)能够处理缺值数据; D)处理需要的时间与数据量成简单的线形关系; E)产生一个报告描述发现的类别,并且通过训练数据构建的分类器预测测试数据的类型。 AutoClass被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。

3 SDSS数字巡天及参数选取 A)SDSS数字巡天简介

B)分类参数选取 我们选取SDSS DR6的恒星具有光谱的测光数据(即已经过光谱证认的测光数据),通过去缺值,得到140865条恒星测光数据。 为了实现在多维空间中的恒星聚类,每条数据记录都包含有5个属性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五个波段的各自差值。

4 AutoClass分类结果及讨论 A)AutoClass分类结果 我们将恒星分类限制在两类(stars和non-stars,这里non-stars是指特殊恒星和非恒星天体),并且将AutoClass的模型参数设置为Single_normal(没有缺值的实数特性模型)。通过运行search程序,我们获得分类结果是139874个stars和991个non-stars。

Stars和Non-stars分布图 i)星等-星等图 Non-stars Stars

ii)颜色-星等图 Non-stars Stars

B) non-stars的证认 我们已经应用AutoClass获得了分类结果并且选出了non-stars。下面的任务就是对这些non-stars进行证认。

i)通过SIMBAD证认

在SIMBAD中,将non-stars的坐标输入进去,将半径误差范围设置为2角秒,共获得25个non-stars的证认信息。以下是25个证认的non-stars的星等/颜色-星等图

ii)通过NED证认

在NED中,将non-stars的坐标输入进去,将半径误差范围设置为6角秒,共获得50个non-stars的证认信息。以下是50个证认的non-stars的星等/颜色-星等图

iii)通过SDSS image/spectra证认

对于不能通过SIMBAD和NED证认的non-stars,

C)计算non-stars的分类正确率。下表列举出通过三种证认得到的百分率,得到通过SIMBAD, NED和通过SDSS image/spectra证认的正确率分别为76.0%,98.0%和80.0%,而总的正确率为89.4%。

D)讨论 存在一些因素影响分类的效率和结果: i)任何算法(包括监督和非监督)都要受到它处理的数据的限制。 ii)由于缺少更多有用的信息,我们不能计算stars的分类正确率,也不能详细证认每个non-stars的类型。 iii) AutoClass算法本身并不知道每个类型的具体意义。等等

但是根据系统差异和任务指标,我们能够建立一个良好的分类器来完成我们的分类,并获得了一些有意义的结论。 i)我们在颜色星-等图或星等-星等图中发现stars和non-stars是几乎重叠在一起的, non-stars并不一定分布在边缘区域。所以不能通过直观区分2维空间上的离群数据(即non-stars),这也正是应用AutoClass的原因。 ii)我们注意到在通过SIMBAD和NED证认的星等-星等图中, 有趣的是non-stars的分布几乎形成一条斜线,而在颜色-星等图中分布几乎形成一条水平线,或许其中暗含一些证认信息。 iii)从NED证认的分布图中,我们可以发现同一类的non-stars基本上是聚集在一个很小的区域。

我们的工作是对恒星的聚类。另外,将来可以通过调整输入参数看是否能提高它的分类效率和性能;也可以进一步研究此算法是否也适用于其他类型的数据处理。

5 结论 AutoClass分类不需要先验知识 ,它仅仅根据观察数据本身来获得聚类信息。从我们的结果可以得出它可以用于SDSS 恒星测光数据的聚类分析,从而有助于建立一个纯的恒星样本。从分类的结果更能体现这个结论。

通过分析,可以得出如下的结论: i)分析证认的non-stars结果,发现它们大部分是galaxy,HII,late-star等等。 ii)由AutoClass构建的分类器可以用于预测没有经过光谱证认的恒星的测光数据的类型 iii)至于那些没有能够被证认的non-stars,可以用大望远镜去跟踪观测,或许能发现稀有天体。 iv)分类的正确率约高达90%,AutoClass可以有效的在大样本数据中发现特殊天体。 v)仔细观察相同类的non-stars的分布结果,发现它们往往聚集成团。 vi)我们将通过大望远镜去观测那些不能被证认的non-stars的光谱。

随着获得更多有用信息和观测数据的增加,我们有信心构建一个纯的恒星样本,发现一些non-stars的分布规律。它们将对研究恒星的结构和演化有帮助,并且能够揭示恒星的一些内在规律。

谢谢大家!