Download presentation
Presentation is loading. Please wait.
1
应用AutoClass算法聚类分析SDSS巡天的恒星数据
严太生 2008年11月于太原
2
提纲 恒星自动分类/聚类的背景 AutoClass算法 SDSS数字巡天及参数选取 AutoClass分类结果及讨论 结论
3
1 恒星自动分类/聚类的背景 一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。
1 恒星自动分类/聚类的背景 一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。 随着从地面和空间观测设备获取大量的数据,构建大的完整的样本成为可能。 为了提高分类/聚类的效率,我们需要依靠区别性很好的分类器。
4
相关的恒星自动分类/聚类工作列举如下: A)Bazarghan (2008) 运用神经网络对从O型星到M型星的5000个光谱分类成158个光谱类型。 B)应用GLIMPSE中红外巡天数据,Mercer (2005) 运用自动检测算法在银河系星系盘中发现了一些新星团。 C)使用支持矢量机算法,Wozniak (2004) 从北天变星巡天数据中发现8678个慢变星。 D)Froebrich (2008) 通过分析恒星密度图和颜色-颜色/星等图,对银河系新的星团进行分类。 E)Jaschek (1990) 撰写了一本关于恒星分类的工具,方法和结果等综合小册子。
5
2 AutoClass算法介绍 AutoClass是基于Bayesian理论的一种非监督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据, AutoClass应用高斯分布,而对于离散型数据应用Bernoulli分布。
6
AutoClass的几个关键特性如下: A)自动确定类别的数目; B)能使用实型的和离散型的混合数据; C)能够处理缺值数据; D)处理需要的时间与数据量成简单的线形关系; E)产生一个报告描述发现的类别,并且通过训练数据构建的分类器预测测试数据的类型。 AutoClass被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。
7
3 SDSS数字巡天及参数选取 A)SDSS数字巡天简介
8
B)分类参数选取 我们选取SDSS DR6的恒星具有光谱的测光数据(即已经过光谱证认的测光数据),通过去缺值,得到140865条恒星测光数据。 为了实现在多维空间中的恒星聚类,每条数据记录都包含有5个属性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五个波段的各自差值。
9
4 AutoClass分类结果及讨论 A)AutoClass分类结果
我们将恒星分类限制在两类(stars和non-stars,这里non-stars是指特殊恒星和非恒星天体),并且将AutoClass的模型参数设置为Single_normal(没有缺值的实数特性模型)。通过运行search程序,我们获得分类结果是139874个stars和991个non-stars。
10
Stars和Non-stars分布图 i)星等-星等图 Non-stars Stars
11
ii)颜色-星等图 Non-stars Stars
12
B) non-stars的证认 我们已经应用AutoClass获得了分类结果并且选出了non-stars。下面的任务就是对这些non-stars进行证认。
13
i)通过SIMBAD证认
14
在SIMBAD中,将non-stars的坐标输入进去,将半径误差范围设置为2角秒,共获得25个non-stars的证认信息。以下是25个证认的non-stars的星等/颜色-星等图
15
ii)通过NED证认
16
在NED中,将non-stars的坐标输入进去,将半径误差范围设置为6角秒,共获得50个non-stars的证认信息。以下是50个证认的non-stars的星等/颜色-星等图
17
iii)通过SDSS image/spectra证认
18
对于不能通过SIMBAD和NED证认的non-stars,
19
C)计算non-stars的分类正确率。下表列举出通过三种证认得到的百分率,得到通过SIMBAD, NED和通过SDSS image/spectra证认的正确率分别为76.0%,98.0%和80.0%,而总的正确率为89.4%。
20
D)讨论 存在一些因素影响分类的效率和结果: i)任何算法(包括监督和非监督)都要受到它处理的数据的限制。 ii)由于缺少更多有用的信息,我们不能计算stars的分类正确率,也不能详细证认每个non-stars的类型。 iii) AutoClass算法本身并不知道每个类型的具体意义。等等
21
但是根据系统差异和任务指标,我们能够建立一个良好的分类器来完成我们的分类,并获得了一些有意义的结论。
i)我们在颜色星-等图或星等-星等图中发现stars和non-stars是几乎重叠在一起的, non-stars并不一定分布在边缘区域。所以不能通过直观区分2维空间上的离群数据(即non-stars),这也正是应用AutoClass的原因。 ii)我们注意到在通过SIMBAD和NED证认的星等-星等图中, 有趣的是non-stars的分布几乎形成一条斜线,而在颜色-星等图中分布几乎形成一条水平线,或许其中暗含一些证认信息。 iii)从NED证认的分布图中,我们可以发现同一类的non-stars基本上是聚集在一个很小的区域。
22
我们的工作是对恒星的聚类。另外,将来可以通过调整输入参数看是否能提高它的分类效率和性能;也可以进一步研究此算法是否也适用于其他类型的数据处理。
23
5 结论 AutoClass分类不需要先验知识 ,它仅仅根据观察数据本身来获得聚类信息。从我们的结果可以得出它可以用于SDSS 恒星测光数据的聚类分析,从而有助于建立一个纯的恒星样本。从分类的结果更能体现这个结论。
24
通过分析,可以得出如下的结论: i)分析证认的non-stars结果,发现它们大部分是galaxy,HII,late-star等等。 ii)由AutoClass构建的分类器可以用于预测没有经过光谱证认的恒星的测光数据的类型 iii)至于那些没有能够被证认的non-stars,可以用大望远镜去跟踪观测,或许能发现稀有天体。 iv)分类的正确率约高达90%,AutoClass可以有效的在大样本数据中发现特殊天体。 v)仔细观察相同类的non-stars的分布结果,发现它们往往聚集成团。 vi)我们将通过大望远镜去观测那些不能被证认的non-stars的光谱。
25
随着获得更多有用信息和观测数据的增加,我们有信心构建一个纯的恒星样本,发现一些non-stars的分布规律。它们将对研究恒星的结构和演化有帮助,并且能够揭示恒星的一些内在规律。
26
谢谢大家!
Similar presentations