海量星表数据融合系统 的完善与应用 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

第七章 日治時期社會、文藝的新趨向 第一節日治時期的社會變遷
中 國 大 節 慶 陳淑貞.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
釣魚台事件 屬於我們的保「釣」運動將持續進行!.
修辭解析 作者:謝佩陵 指導老師:沈老師.
大紅燈籠高高掛 從電影藝術談微觀權力作用 組員: 陳思潓 蘇惠瑄
氣喘 組別:第一組 組員: 4A 蔡易儒 4A1I0026 鄭筠蒨 4A1I0034 韓宜瑄 4A1I0035 劉毓眉
初级会计电算化 (用友T3) 制作人:张爱红.
投資活動 股票 60332施薇如.
没错,他们就是 中国最具活力和创富能力大的群体之一——
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
综合布线技术与实践教程 第九章:综合布线系统工程网络分析 课程网站:
部分天文数据库的介绍 沈世银 上海天文台.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
Oracle数据库 Oracle 子程序.
訓儉示康 司馬光.
LAMOST 巡天中的星系 沈世银 上海天文台.
数据仓库与数据挖掘实验.
AVO prototype and CDS tools
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
存储系统.
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
SQL Injection.
走进编程 程序的顺序结构(二).
LAMOST 光纤定位系统的调整 LAMOST巡天和数据部 张昊彤
社会网络数据分析基础-2 同质性的测量 王锐 上海对外经贸大学.
第17章 网站发布.
Online job scheduling in Distributed Machine Learning Clusters
四書期末報告-論語 述而篇第四 國三甲 黃瀞儀 指導教授:胡瀚平 105年5月18日.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
CPU结构和功能.
1085至1125年间的官员地域分布与社会关系 1.
專題習研電腦科-西藏民族的服飾 西藏長袍、僧衣、西藏的頭飾 中二班朱惠掦製作.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
实验1 信息系统分析与设计工具安装.
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
詩經 蔡柳金.
模型分类问题 Presented by 刘婷婷 苏琬琳.
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
VB与Access数据库的连接.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
用计算器开方.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
国家学生体质健康标准数据管理与分析系统使用培训
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
基于最大margin的决策树归纳 李 宁.
虚拟天文台数据访问服务 VODAS 杨 阳.
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
多波段数据 交叉证认工具的实现 高丹 China-VO项目组 中国科学院国家天文台 第三届中国虚拟天文台研讨会☆武汉☆
Chinese Virtual Observatory
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
VB与Access数据库的连接.
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
入侵检测技术 大连理工大学软件学院 毕玲.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

海量星表数据融合系统 的完善与应用 彭南博 LAMOST项目组 中国科学院国家天文台 2008年11月于太原

主 要 内 容 ◆ 多波段交叉证认的背景及原理 数据融合工具的国外现状 海量星表融合系统的介绍 将来工作的方向 ◆ ◆ ◆

天文学发展背景 随着科学技术的发展,天文学进入了全波段巡天观测阶段,形成了多波段天文学,来自各个波段的巡天和观测数据急剧增长,如何将这些星表统一起来以探测和研究天体在各波段的特性,这就需要星表之间的交叉证认。

有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足 多波段交叉证认 原理: 有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足 则认为它们可能是同一天体。 利用各种数据的共同属性——位置,通过多波段交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识,加深对证认源的新的天文理解,为统计分析和数据挖掘做准备。

数据融合:数据挖掘的基石 知识 模式评估 数据挖掘 特定任务的数据 选择 数据仓库 数据清洁 数据融合 数据库

知识发现的过程 数 据 融 合 1 2 4 3 5 创建/选择 目标数据库 数据仓库 取样技巧选择 样本数据 处理缺值数据 删除噪音数据 数据归一化 转换数据 构造新的参量 发现重要的 参量及其取 值范围 4 3 选择 DM 任务 选择 DM 方法 提取知识 验证知识 精炼知识 查询和报告产生 整合&排序 高级方法 转化成不同的 表示形式 5

多波段数据分析流程图 …… 多波段数据分析的流程图 红外数据 光学数据 X射线数据 其它数据 射电数据 交叉 证认 一对一 一对多 多对一 一对无 多对无 概率分析 统计研究 数据挖掘 …… 依赖关系 偏差分析 序列模式 关联规则 聚类分析 分类分析 特殊分析 多波段数据分析的流程图

数据融合工具的国外现状 VizieR已经收集6000多个星表。每个星表都有小样本交 叉证认服务,但结果还需要用户二次加工。

数据融合工具的国外现状 Simbad提供查询服务 ,主要提供点源的证 认情况。 Aladin是数 据的可视化工具,并 提供查询、交叉证认 、光谱分析等功能。 任意海量数据交叉证 认还没有实现。

数据融合工具的国外现状 MAST 是NASA资助的 基金项目,为天文学 界提供各种各样的天 文数据库的支持和服 务,主要用于获得可 见光、紫外和近红外 的相关的光谱数据。 也提供了仅限于小样 本的交叉证认。

数据融合工具的国外现状 OpenSkyQuery用一种通 用的查询语言ADQL实 现了数据查询、交叉证 认等功能,但该系统查 询或证认的行数不能超 过5000行。

数据融合工具的国外现状 OpenSkyQuery 用一种通用的查询语言ADQL实现了数据查询、交叉证认等功能,但该系统查询或证认的行数不能超过5000行。 SDSS CasJob 提供了SDSS巡天数据的SQL语言查询和数据下载服务,但每次查询的结果限制在500M之内。 Topcats 提供各种方法浏览和分析数据表,包括浏览核心数据、表的原始信息和列的元数据、以及画图工具、统计计算、交叉证认等,但内存一般限制在256M范围内。

数据融合工具的国外现状 总的说来当前证认工具种类繁多,但目前国外 这些大数据中心提供的多源查询服务都有其局限 性,数据资源局限和功能局限,以及一堆严格的 标准要熟悉,而且天文学家的很多要求还是不能 实现,更不用说海量数据的异地交叉证认了。

海量星表融合系统XMaS _VO 高丹等同学开发的海量星表融合系统XMaS _VO系统基于支持SQL语言的数据库系统,是面向使用者提供的一种服务。此系统架构在北京天文数据中(BADC),BADC有包括SDSS、2MASS、USNO等大型巡天星表。用户可以上传自己的星表,使用BADC的系统提供的服务;也可以方便地移植到任何数据库系统上。

海量星表融合系统 基于服务器的海量星表融合系统 基于用户的海量星表融合系统 User’s Data Center USNO Other SDSS 2MASS BADC XMaS_VO User1 User2 Data2 基于服务器的海量星表融合系统 基于用户的海量星表融合系统

海量星表融合系统的逻辑过程 建 开始工作 自动入库 提取参数 从数据库中 提取数据并 自动传回 结束工作 交叉证认 星表在数据库 中不存在 ? 是 自动入库 星表 继续工作 已存在 没有 HTM 索引 建 两星表 是否入库并建 交叉证认 有索引 是否进行 不进行交叉证认 没准备好 是否提取参数 提取参数 否 从数据库中 提取数据并 自动传回 结束工作

XMaS_VO系统的功能由以下五步功能模块来实现 自动入库模块 自动建HTM索引模块 * 交叉证认模块 * 参数提取模块 数据回传模块

HTM索引:起始状态将整个天区分为8 等份,上下各四个球面直角三角。

HTM 算法编码方案

自动建HTM索引模块 根据数据表的坐标数据计算出对应HTM索引的pcode值,为星表建立HTM索引,将id_htm主键和pcode值两列新建HTM索引表。经过测试,误差半径小于等于5arcsec时选8level,为30arcsec时选6level。

交叉证认模块 交叉证认算法 基于HTM索引分区与kd-tree找最近邻的交叉证认算 法以小表为中心,把HTM索引当作分区,接着分别对每个分区的大表,把赤径、赤纬作为参数建kd-tree,并对该分区内小表的每个源,在kd-tree中找最近邻。算法用证认判断公式判断是否证认,由于HTM级数选得比较小,比星表精度低,漏源的可能性小,提高了速度和证认精度。

kd-tree

kd-tree

应用实例 星表A 行数 大小 星表B HTM级数 时间 Rosat2 105,924 18M Tycho2 2,539,913 439M 8 3567sec SDSS qusars 76,989 56M 2MASS 470,992,970 123G 10 5033sec First 811,117 83M 24404sec Gspc24 554,007 65M USNOB 1,045,096,352 172G 5,8 85720sec GSC2.3的部分原始数据 295,832 23M 加入位置和星等噪声的数据 338sec 一般两个几十万或几百万条数据的大星表交叉证认大概需要一个小时左右,而一个几百万的大星表和2MASS、USNO-B1.0这样几亿或几十亿条数据的海量星表交叉证认需要十几小时到二十几个小时的时间。

展望 天文学已经进入数据爆炸的新时代 。随着Lamost的投入使用,必将给中国的天文学家们提供巨大的数据财富,同时也提出了新挑战。传统的数据服务显然已经不能满足需求,必须借助于各种工具提高科学产出的效率。 自动 入库工具 自动交叉 证认工具 统计 分析工具 数据 挖掘工具

展望 海量星表融合系统(XMaS _VO系统),今后还需要对该工具不断完善和更新,建树上的改进,优化用户界面,做进一步的概率分析,并提供与可视化工具、统计分析工具和数据挖掘工具的接口,为下一步的统计分析、数据挖掘和可视化做准备。

工作重心 ◆ 进一步完善自动化入库工具,提供支持各种数据格式的便捷服务; 优化交叉证认工具的用户界面; 提供与数据挖掘工具的接口; ◆ 应用该工具为LAMOST项目提供多波段证认数据; 基于各种巡天数据,用数据挖掘方法为LAMOST选取类星体候选体。 ◆ ◆ ◆ ◆

谢谢 Q&A