海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原.

海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原

主要内容 ◆ 多波段交叉证认的背景及原理数据融合工具的国外现状海量星表融合系统的介绍将来工作的方向 ◆ ◆ ◆

天文学发展背景随着科学技术的发展，天文学进入了全波段巡天观测阶段，形成了多波段天文学，来自各个波段的巡天和观测数据急剧增长，如何将这些星表统一起来以探测和研究天体在各波段的特性，这就需要星表之间的交叉证认。

有两个源分别在星表a、b中，它们的误差半径分别为r1，r2，它们的之间的球面距离为d。如果它们的关系满足
多波段交叉证认原理：有两个源分别在星表a、b中，它们的误差半径分别为r1，r2，它们的之间的球面距离为d。如果它们的关系满足则认为它们可能是同一天体。利用各种数据的共同属性——位置，通过多波段交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识，加深对证认源的新的天文理解，为统计分析和数据挖掘做准备。

数据融合:数据挖掘的基石知识模式评估数据挖掘特定任务的数据选择数据仓库数据清洁数据融合数据库

知识发现的过程数据融合 1 2 4 3 5 创建/选择目标数据库数据仓库取样技巧选择样本数据处理缺值数据删除噪音数据
数据归一化转换数据构造新的参量发现重要的参量及其取值范围 4 3 选择 DM 任务选择 DM 方法提取知识验证知识精炼知识查询和报告产生整合&排序高级方法转化成不同的表示形式 5

多波段数据分析流程图 …… 多波段数据分析的流程图红外数据光学数据 X射线数据其它数据射电数据交叉证认一对一一对多多对一
一对无多对无概率分析统计研究数据挖掘 …… 依赖关系偏差分析序列模式关联规则聚类分析分类分析特殊分析多波段数据分析的流程图

数据融合工具的国外现状 VizieR已经收集6000多个星表。每个星表都有小样本交叉证认服务，但结果还需要用户二次加工。

数据融合工具的国外现状 Simbad提供查询服务，主要提供点源的证认情况。 Aladin是数据的可视化工具，并提供查询、交叉证认
、光谱分析等功能。任意海量数据交叉证认还没有实现。

数据融合工具的国外现状 MAST 是NASA资助的基金项目，为天文学界提供各种各样的天文数据库的支持和服务，主要用于获得可
见光、紫外和近红外的相关的光谱数据。也提供了仅限于小样本的交叉证认。

数据融合工具的国外现状 OpenSkyQuery用一种通用的查询语言ADQL实现了数据查询、交叉证认等功能，但该系统查
询或证认的行数不能超过5000行。

数据融合工具的国外现状 OpenSkyQuery 用一种通用的查询语言ADQL实现了数据查询、交叉证认等功能，但该系统查询或证认的行数不能超过5000行。 SDSS CasJob 提供了SDSS巡天数据的SQL语言查询和数据下载服务，但每次查询的结果限制在500M之内。 Topcats 提供各种方法浏览和分析数据表，包括浏览核心数据、表的原始信息和列的元数据、以及画图工具、统计计算、交叉证认等，但内存一般限制在256M范围内。

数据融合工具的国外现状总的说来当前证认工具种类繁多，但目前国外这些大数据中心提供的多源查询服务都有其局限性，数据资源局限和功能局限，以及一堆严格的标准要熟悉，而且天文学家的很多要求还是不能实现，更不用说海量数据的异地交叉证认了。

海量星表融合系统XMaS _VO 高丹等同学开发的海量星表融合系统XMaS _VO系统基于支持SQL语言的数据库系统，是面向使用者提供的一种服务。此系统架构在北京天文数据中（BADC），BADC有包括SDSS、2MASS、USNO等大型巡天星表。用户可以上传自己的星表，使用BADC的系统提供的服务；也可以方便地移植到任何数据库系统上。

海量星表融合系统基于服务器的海量星表融合系统基于用户的海量星表融合系统 User’s Data Center USNO Other
SDSS 2MASS BADC XMaS_VO User1 User2 Data2 基于服务器的海量星表融合系统基于用户的海量星表融合系统

海量星表融合系统的逻辑过程建开始工作自动入库提取参数从数据库中提取数据并自动传回结束工作交叉证认星表在数据库中不存在
？是自动入库星表继续工作已存在没有 HTM 索引建两星表是否入库并建交叉证认有索引是否进行不进行交叉证认没准备好是否提取参数提取参数否从数据库中提取数据并自动传回结束工作

XMaS_VO系统的功能由以下五步功能模块来实现
自动入库模块自动建HTM索引模块 * 交叉证认模块 * 参数提取模块数据回传模块

HTM索引：起始状态将整个天区分为8 等份，上下各四个球面直角三角。

HTM 算法编码方案

自动建HTM索引模块根据数据表的坐标数据计算出对应HTM索引的pcode值，为星表建立HTM索引，将id_htm主键和pcode值两列新建HTM索引表。经过测试，误差半径小于等于5arcsec时选8level，为30arcsec时选6level。

交叉证认模块交叉证认算法基于HTM索引分区与kd-tree找最近邻的交叉证认算法以小表为中心，把HTM索引当作分区，接着分别对每个分区的大表，把赤径、赤纬作为参数建kd-tree，并对该分区内小表的每个源，在kd-tree中找最近邻。算法用证认判断公式判断是否证认，由于HTM级数选得比较小，比星表精度低，漏源的可能性小，提高了速度和证认精度。

kd-tree

应用实例星表A 行数大小星表B HTM级数时间 Rosat2 105,924 18M Tycho2 2,539,913 439M 8
3567sec SDSS qusars 76,989 56M 2MASS 470,992,970 123G 10 5033sec First 811,117 83M 24404sec Gspc24 554,007 65M USNOB 1,045,096,352 172G 5,8 85720sec GSC2.3的部分原始数据 295,832 23M 加入位置和星等噪声的数据 338sec 一般两个几十万或几百万条数据的大星表交叉证认大概需要一个小时左右，而一个几百万的大星表和2MASS、USNO-B1.0这样几亿或几十亿条数据的海量星表交叉证认需要十几小时到二十几个小时的时间。

展望天文学已经进入数据爆炸的新时代。随着Lamost的投入使用，必将给中国的天文学家们提供巨大的数据财富，同时也提出了新挑战。传统的数据服务显然已经不能满足需求，必须借助于各种工具提高科学产出的效率。自动入库工具自动交叉证认工具统计分析工具数据挖掘工具

展望海量星表融合系统（XMaS _VO系统），今后还需要对该工具不断完善和更新，建树上的改进，优化用户界面，做进一步的概率分析，并提供与可视化工具、统计分析工具和数据挖掘工具的接口，为下一步的统计分析、数据挖掘和可视化做准备。

工作重心 ◆ 进一步完善自动化入库工具，提供支持各种数据格式的便捷服务；优化交叉证认工具的用户界面；提供与数据挖掘工具的接口； ◆
应用该工具为LAMOST项目提供多波段证认数据；基于各种巡天数据，用数据挖掘方法为LAMOST选取类星体候选体。 ◆ ◆ ◆ ◆

谢谢 Q&A

海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原.

Similar presentations

Presentation on theme: "海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

海量星表数据融合系统 的完善与应用 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原.

Similar presentations

Presentation on theme: "海量星表数据融合系统 的完善与应用 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原."— Presentation transcript:

Similar presentations

About project

反馈

海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原.

Presentation on theme: "海量星表数据融合系统的完善与应用彭南博 LAMOST项目组中国科学院国家天文台 2008年11月于太原."— Presentation transcript: