Download presentation
Presentation is loading. Please wait.
1
海量星表数据融合系统 的完善与应用 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原
2
主 要 内 容 ◆ 多波段交叉证认的背景及原理 数据融合工具的国外现状 海量星表融合系统的介绍 将来工作的方向 ◆ ◆ ◆
3
天文学发展背景 随着科学技术的发展,天文学进入了全波段巡天观测阶段,形成了多波段天文学,来自各个波段的巡天和观测数据急剧增长,如何将这些星表统一起来以探测和研究天体在各波段的特性,这就需要星表之间的交叉证认。
4
有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足
多波段交叉证认 原理: 有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足 则认为它们可能是同一天体。 利用各种数据的共同属性——位置,通过多波段交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识,加深对证认源的新的天文理解,为统计分析和数据挖掘做准备。
5
数据融合:数据挖掘的基石 知识 模式评估 数据挖掘 特定任务的数据 选择 数据仓库 数据清洁 数据融合 数据库
6
知识发现的过程 数 据 融 合 1 2 4 3 5 创建/选择 目标数据库 数据仓库 取样技巧选择 样本数据 处理缺值数据 删除噪音数据
数据归一化 转换数据 构造新的参量 发现重要的 参量及其取 值范围 4 3 选择 DM 任务 选择 DM 方法 提取知识 验证知识 精炼知识 查询和报告产生 整合&排序 高级方法 转化成不同的 表示形式 5
7
多波段数据分析流程图 …… 多波段数据分析的流程图 红外数据 光学数据 X射线数据 其它数据 射电数据 交叉 证认 一对一 一对多 多对一
一对无 多对无 概率分析 统计研究 数据挖掘 …… 依赖关系 偏差分析 序列模式 关联规则 聚类分析 分类分析 特殊分析 多波段数据分析的流程图
8
数据融合工具的国外现状 VizieR已经收集6000多个星表。每个星表都有小样本交 叉证认服务,但结果还需要用户二次加工。
9
数据融合工具的国外现状 Simbad提供查询服务 ,主要提供点源的证 认情况。 Aladin是数 据的可视化工具,并 提供查询、交叉证认
、光谱分析等功能。 任意海量数据交叉证 认还没有实现。
10
数据融合工具的国外现状 MAST 是NASA资助的 基金项目,为天文学 界提供各种各样的天 文数据库的支持和服 务,主要用于获得可
见光、紫外和近红外 的相关的光谱数据。 也提供了仅限于小样 本的交叉证认。
11
数据融合工具的国外现状 OpenSkyQuery用一种通 用的查询语言ADQL实 现了数据查询、交叉证 认等功能,但该系统查
询或证认的行数不能超 过5000行。
12
数据融合工具的国外现状 OpenSkyQuery 用一种通用的查询语言ADQL实现了数据查询、交叉证认等功能,但该系统查询或证认的行数不能超过5000行。 SDSS CasJob 提供了SDSS巡天数据的SQL语言查询和数据下载服务,但每次查询的结果限制在500M之内。 Topcats 提供各种方法浏览和分析数据表,包括浏览核心数据、表的原始信息和列的元数据、以及画图工具、统计计算、交叉证认等,但内存一般限制在256M范围内。
13
数据融合工具的国外现状 总的说来当前证认工具种类繁多,但目前国外 这些大数据中心提供的多源查询服务都有其局限 性,数据资源局限和功能局限,以及一堆严格的 标准要熟悉,而且天文学家的很多要求还是不能 实现,更不用说海量数据的异地交叉证认了。
14
海量星表融合系统XMaS _VO 高丹等同学开发的海量星表融合系统XMaS _VO系统基于支持SQL语言的数据库系统,是面向使用者提供的一种服务。此系统架构在北京天文数据中(BADC),BADC有包括SDSS、2MASS、USNO等大型巡天星表。用户可以上传自己的星表,使用BADC的系统提供的服务;也可以方便地移植到任何数据库系统上。
15
海量星表融合系统 基于服务器的海量星表融合系统 基于用户的海量星表融合系统 User’s Data Center USNO Other
SDSS 2MASS BADC XMaS_VO User1 User2 Data2 基于服务器的海量星表融合系统 基于用户的海量星表融合系统
16
海量星表融合系统的逻辑过程 建 开始工作 自动入库 提取参数 从数据库中 提取数据并 自动传回 结束工作 交叉证认 星表在数据库 中不存在
? 是 自动入库 星表 继续工作 已存在 没有 HTM 索引 建 两星表 是否入库并建 交叉证认 有索引 是否进行 不进行交叉证认 没准备好 是否提取参数 提取参数 否 从数据库中 提取数据并 自动传回 结束工作
17
XMaS_VO系统的功能由以下五步功能模块来实现
自动入库模块 自动建HTM索引模块 * 交叉证认模块 * 参数提取模块 数据回传模块
18
HTM索引:起始状态将整个天区分为8 等份,上下各四个球面直角三角。
19
HTM 算法编码方案
20
自动建HTM索引模块 根据数据表的坐标数据计算出对应HTM索引的pcode值,为星表建立HTM索引,将id_htm主键和pcode值两列新建HTM索引表。经过测试,误差半径小于等于5arcsec时选8level,为30arcsec时选6level。
21
交叉证认模块 交叉证认算法 基于HTM索引分区与kd-tree找最近邻的交叉证认算 法以小表为中心,把HTM索引当作分区,接着分别对每个分区的大表,把赤径、赤纬作为参数建kd-tree,并对该分区内小表的每个源,在kd-tree中找最近邻。算法用证认判断公式判断是否证认,由于HTM级数选得比较小,比星表精度低,漏源的可能性小,提高了速度和证认精度。
22
kd-tree
23
kd-tree
24
应用实例 星表A 行数 大小 星表B HTM级数 时间 Rosat2 105,924 18M Tycho2 2,539,913 439M 8
3567sec SDSS qusars 76,989 56M 2MASS 470,992,970 123G 10 5033sec First 811,117 83M 24404sec Gspc24 554,007 65M USNOB 1,045,096,352 172G 5,8 85720sec GSC2.3的部分原始数据 295,832 23M 加入位置和星等噪声的数据 338sec 一般两个几十万或几百万条数据的大星表交叉证认大概需要一个小时左右,而一个几百万的大星表和2MASS、USNO-B1.0这样几亿或几十亿条数据的海量星表交叉证认需要十几小时到二十几个小时的时间。
25
展望 天文学已经进入数据爆炸的新时代 。随着Lamost的投入使用,必将给中国的天文学家们提供巨大的数据财富,同时也提出了新挑战。传统的数据服务显然已经不能满足需求,必须借助于各种工具提高科学产出的效率。 自动 入库工具 自动交叉 证认工具 统计 分析工具 数据 挖掘工具
26
展望 海量星表融合系统(XMaS _VO系统),今后还需要对该工具不断完善和更新,建树上的改进,优化用户界面,做进一步的概率分析,并提供与可视化工具、统计分析工具和数据挖掘工具的接口,为下一步的统计分析、数据挖掘和可视化做准备。
27
工作重心 ◆ 进一步完善自动化入库工具,提供支持各种数据格式的便捷服务; 优化交叉证认工具的用户界面; 提供与数据挖掘工具的接口; ◆
应用该工具为LAMOST项目提供多波段证认数据; 基于各种巡天数据,用数据挖掘方法为LAMOST选取类星体候选体。 ◆ ◆ ◆ ◆
28
谢谢 Q&A
Similar presentations