Download presentation
Presentation is loading. Please wait.
1
Chinese Virtual Observatory
大数据量交叉证认 算法研究 高丹 中国虚拟天文台研发团队
2
内容 星表介绍 交叉证认的意义 现有的交叉证认工具 交叉证认概念 交叉证认方法比较 进一步工作 B-tree索引 HTM索引
HTM索引分区+kdtree 进一步工作 China-VO 2006, Guilin 11/29-12/03
3
星表 星表是包含天体信息(如赤经、赤纬、星等、流量)的二维数据表格 多波段:光学、红外、射电、X射线等
星表的每一行对应一个天体,不同星表的同一天体的共同属性是位置信息 赤经:0~360度 赤纬:-90~90度 China-VO 2006, Guilin 11/29-12/03
4
星表实例 China-VO 2006, Guilin 11/29-12/03
5
交叉证认的必要性 多波段数据急剧增长 革命性步骤:数据融合 联系桥梁:位置交叉证认 China-VO 2006, Guilin
11/29-12/03
6
交叉证认的意义 多波段数据融合,获得天体多波段信息 对天体的物理性质、演化规律获得更全面系统的认识 为进一步的统计分析、数据挖掘做准备
提取天体的参数越多,越有利于天体分类和测光红移的计算 增加了发现新天体的概率 LAMOST三大核心子课题之一 虚拟天文台数据融合必由之路 China-VO 2006, Guilin 11/29-12/03
7
现有的交叉证认工具 SIMBAD ALADIN NED MAST TOPCAT OpenSkyquery GVO-cross-match
China-VO 2006, Guilin 11/29-12/03
8
现有工具的优缺点 优点: 缺点: 界面友好 数据资源丰富 不能进行大样本的交叉证认 参数不能自由选择 交叉证认结果需要用户进一步加工
没有对结果进行分类 没给出交叉证认的概率 只能与特定的数据交叉证认 China-VO 2006, Guilin 11/29-12/03
9
交叉证认的概念 将不同星表或数据库中的源按位置属性将它们联系起来,在相同位置的源或一定误差半径范围内的源,被证认为是同一天体。
China-VO 2006, Guilin 11/29-12/03
10
证认的判断方法 (1) 有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足
,则认为它们是同一天体。 (1) China-VO 2006, Guilin 11/29-12/03
11
证认的判断方法(例子) 2MASS:r1=0.1 ra=357.661036243116, decl=0.434507548194
SDSS:r2=0.1 ra= , decl= d: 两个源满足(1)式,被证认为同一个天体 China-VO 2006, Guilin 11/29-12/03
12
索引 Indexing mechanisms used to speed up access to desired data.
China-VO 2006, Guilin 11/29-12/03
13
B-tree索引的交叉证认 为星表的ra,decl两列建B-tree索引 以小表为中心,在大表中遍历寻找证认源 以(1)式为判断
算法复杂度O(N*N) China-VO 2006, Guilin 11/29-12/03
14
B-tree索引的交叉证认(续) China-VO 2006, Guilin 11/29-12/03
15
B-tree索引方法优缺点 优点: 缺点: 证认精度高 内存限制,索引不好 速度慢,算法复杂度高 China-VO 2006, Guilin
11/29-12/03
16
HTM The Spatial Index is a quad tree of spherical triangles. The tree is built in the following way: Start out with 8 triangles on the sphere using the 3 main circles to determine them. Then, every triangle can be decomposed into 4 new triangles by drawing main circles between midpoints of its edges China-VO 2006, Guilin 11/29-12/03
17
HTM pcode ra=45.0 , decl=66.0, level=14 N313330303330003
China-VO 2006, Guilin 11/29-12/03
18
HTM level Level Area (arcmin^2) Num Leaves 10 1.77E1 8,388,608
China-VO 2006, Guilin 11/29-12/03
19
HTM索引的交叉证认 由星表的精度选取一定的HTM级数 由星表的ra,decl计算出HTM pcode值 两个B-tree索引 一个空间索引
N*N遍历 自然连接 省去(1)式判断,要求两个星表级数一样,即精度差不多 China-VO 2006, Guilin 11/29-12/03
20
HTM索引的交叉证认(续) China-VO 2006, Guilin 11/29-12/03
21
HTM索引方法优缺点 优点: 缺点: 索引好,空间索引解决了内存限制问题 速度慢,没有解决算法复杂度问题 认证精度低 漏源概率高
大量一对多、多对一混杂 要求两个表精度差不多 China-VO 2006, Guilin 11/29-12/03
22
HTM索引分区+kdtree的交叉证认 以小表为中心,把HTM索引当作分区 对每个分区的大表,把ra、decl作为参数建kdtree
用(1)式证认判断 HTM级数比星表精度低,漏源可能性小 China-VO 2006, Guilin 11/29-12/03
23
HTM索引分区+kdtree方法优缺点 优点: 缺点: 索引好,空间索引解决了内存限制问题 分区,算法复杂度降低,速度快 证认精度高
China-VO 2006, Guilin 11/29-12/03
24
进一步工作 进一步改进和优化算法 尝试其他索引算法,如HEALpix 优化交叉证认界面 实现参数自由选择和加工 计算证认的概率
提供与上层的数据挖掘和可视化工具的接口 集成一些现有的数据挖掘算法,开发面向天文 数据特点的挖掘工具 China-VO 2006, Guilin 11/29-12/03
25
Thank you ! Q & A ? www org China-VO 2006, Guilin 11/29-12/03
Similar presentations