LAMOST 天文学中的数据挖掘 张彦霞 国家天文台 2011.11.10贵阳.

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

天文信息学的思考 国家天文台 赵永恒 2011 年 11 月. 2 X-informatics 生物信息学 化学信息学 医学信息学 水信息学 地理信息学(系统) 空间信息科学与技术.
天文数据分析 国家天文台 赵永恒 2015年4月.
大勇國小六年三班 指導老師:林靜宜 ♂第四組成員♂ 賴懿綾★賴欣慧 魯宛憶★陳昱如 周家圓★李奕璇 ★許賀晴★
甘肃机电职业技术学院——现代制造工程系 —— 李海军
吴学兵 (北京大学天文学系) 部分内容基于“中国大学天文联合发展研讨会”资料
完善固定资产加速折旧 企业所得税政策.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
论文检索、投稿和搜集 经验交流 清华大学信息网络工程研究中心 王之梁
龙星课程—肿瘤生物信息学上机课程 曹莎
六己第一組 指導老師:鄭素美 老師 組員:呂頤姍,白宇軒,葉米柑 吳國逸,吳育銘,陳佳豐
Data Mining & Knowledge Discovery
导游资格证考试概要.
食品添加剂生产许可情况介绍 江苏省食品药品监督管理局 彭弘雷 2014年12月
天文学信息化建设初步设想 赵永恒 国家天文台 2006年11月.
淄博信息工程学校 ZIBOIT&ENGINEERING VOCATONAL SHCOOL 03 交换机干道技术 计算机网络技术专业.
草花播种技术 制作人:熊光武 班级:园林绿化09-1 学号:
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
易學基礎教程 國文系99 王隆運. 易學基礎教程 國文系99 王隆運.
Oracle数据库 Oracle 子程序.
第四次大作业 登陆学校图书馆网站的电子数据库
大数据在医疗行业的应用.
数据仓库与数据挖掘实验.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
虚拟天文台 -网格技术最好的试验场 The Chinese VIRTUAL OBSERVATORY 崔辰州 国家天文台
基于R和pentaho的全套开源BI平台的实现
Hadoop I/O By ShiChaojie.
Overview of Python Visualization Tools
SVN的基本概念 柳峰
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
Chinese Virtual Observatory
管理信息结构SMI.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
Data Mining 第八組 B 萬佳育 B 葉書蘋.
第17章 网站发布.
Introduction to AI and ML
EM算法 一种参数估计的方法.
Online job scheduling in Distributed Machine Learning Clusters
What have we learned?.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
给孩子做一面明亮的镜子 给孩子做一面明亮的镜子.
DevDays ’99 The aim of this mission is knowledge..
WSDM见闻 程龚.
SOA – Experiment 2: Query Classification Web Service
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
C语言程序设计 主讲教师:陆幼利.
Partial Differential Equations §2 Separation of variables
模型分类问题 Presented by 刘婷婷 苏琬琳.
2019/4/16 关注NE官方微信,获取更多服务.
VisComposer 2019/4/17.
高红移耀变体的GeV-TeV能谱 闫大海 云南天文台 张鹏飞 紫金山天文台.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
M31晕中一个著名的球状星团G1的多色测光研究
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
聚类 IRLAB.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
第十二章 顧客關係管理.
iSIGHT 基本培训 使用 Excel的栅栏问题
数据集的抽取式摘要 程龚, 徐丹云.
基于最大margin的决策树归纳 李 宁.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
An Quick Introduction to R and its Application for Bioinformatics
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
機構督導: 范盛翔 督導 實習生: 佛光大學社會學系江佳穎 實習日期: 7/1(二)~8/29(五)
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
Chinese Virtual Observatory
入侵检测技术 大连理工大学软件学院 毕玲.
Presentation transcript:

LAMOST 天文学中的数据挖掘 张彦霞 国家天文台 2011.11.10贵阳

概要 LAMOST 必要性 概念 技巧 问题 展望 文献

海量数据 NVO (IVOA) 注册的数据资源有~14,000 一些大型的天文数据库包括NASA空间天文项目 LAMOST 海量数据 NVO (IVOA) 注册的数据资源有~14,000 一些大型的天文数据库包括NASA空间天文项目 已经完成或正在进行的大型天文巡天项目,如: MACHO 和相关的暗物质巡天: ~ 1 TB DPOSS: 3 TB 2MASS: 10 TB GALEX: 30 TB SDSS: 40 TB 将来的巨型巡天项目,如: PanSTARRS:每晚 10 TB,预计最终40 PB LSST (Large Synoptic Survey Telescope): 2018开始运行, with 3-Gigapixel camera 每30秒10 GB 每晚 30 TB,持续十年 预计最终的图像数据100 PB– 所有数据公开!!! 预计最终的星表数据30 PB 实时事件挖掘: 每晚事件10,000-100,000个, 持续十年 每三晚巡全天一次: 制作天体的电影

天文学: 数据驱动的科学

天文学:是发现驱动的科学 • 驱动发现的因素: – 新问题 – 新的思想 – 新模型 – 新理论 – 更重要的是新数据!

天文学:是发现驱动的科学 • 因此,需要更有效的挖掘和分析算法或工具 • 发现导致: – 新的问题 – 新思想 – 新模型 – 新理论 – 更重要的是 ... 更多的新数据! • 因此,需要更有效的挖掘和分析算法或工具

天文学家一直在从事数据挖掘 “The data are mine, and you can’t have them!” • 严格意义上讲 ... • 天文学家喜欢对事物进行分类 ... (监督学习. 如,分类) • 天文学家喜欢对事物归类 ... (非监督学习. 如,聚类) • 天文学家更希望发现新的天体或现象 ... (半监督学习. 如, 离群探测)

天文中的数据挖掘课题 压缩 (如. 图像和光谱) 分类 (如. 恒星,星系,或伽马射线暴) Ofer Lahav, 2006, astro-ph/0610703 Summary on the 4th meeting on “Statistical Challenge in Modern Astronomy” held at Penn State University in June 2006 压缩 (如. 图像和光谱) 分类 (如. 恒星,星系,或伽马射线暴) 重建 (如. 星系模糊图像的重建, 弱引力透镜质量分布的重建) 特征抽取 (如. 恒星、星系和类星体的重要特征) 参数估计 (如. 恒星参数估计, 测光红移预测, 太阳系外行星的轨道参数, 或宇宙参数 ) 模型选择 (如. 一颗恒星有几颗行星绕转?)

天文学研究的转变 过去: 100到1000个独立的分布的异构数据 / 元数据 / 信息库. 过去: 100到1000个独立的分布的异构数据 / 元数据 / 信息库. 目前: 天文数据可以从融合的分布资源中获得,如虚拟天文台. 将来: 随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学. 挑战: 越来越难于将数据传输到用户… 算法移植到数据 ! 9 9

Scientific Knowledge ! 数据驱动到数据密集 天文学一直以来就是数据驱动的科学 现在成为数据密集型的科学: 天文信息学(Astroinformatics )! 面向数据的天文学研究= “第四范式” 科学知识发现 第四范式: 数据密集型的科学发现 Scientific Knowledge ! 大数据集的优点: 很好地统计分析典型或特殊事件 自动搜寻稀有事件

定义 数据挖掘:从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知 识的过程。

知识发现的优点 DSS MIS EDP 价值 巨量 发布 产生 快速响应 EDP: 电子数据加工 MIS: 管理信息系统 Data Mining allows us to derive valuable knowledge from large volumes of data. This knowledge can then be used to improve decision making processes, which will in turn affect operational processes. This can result in generation of further data, and so on… Note that one can start anywhere on the cycle. EDP 快速响应 巨量 EDP: 电子数据加工 MIS: 管理信息系统 DSS: 决策支持系统

数据挖掘:知识发现的过程 知识 数据挖掘—知识发现(KDD)过程的核心 模式评估 数据挖掘 特定任务的数据 选择 数据仓库 数据清洁 数据融合 数据库

数据挖掘:多学科的交叉学科 数据库系统 统计学 数据挖掘 机器学习 &人工智能 可视化 信息科学 其它学科

KDD: 机遇和挑战 KDD 竞争的压力 数据丰富知识贫乏 驱动技术: (互动的管理信息系统, OLAP, 并行计算, Web, etc.) 数据挖掘技术的成熟 数据丰富知识贫乏 驱动技术: (互动的管理信息系统, OLAP, 并行计算, Web, etc.)

数据挖掘的常用技术 人工神经网络 支持矢量机 决策树  遗传算法 近邻算法 规则推导 粗糙集

数据挖掘的任务 数据总结 分类分析 聚类分析 回归分析 关联规则分析 序列模式分析 依赖关系分析 偏差分析 模式分析或统计分析 时序数据分析 其它

分类分析 定义 应用 方法 按照某种规则,新的数据被划分到已知类别中的一类。 这个规则是通过具有标签的数据进行监督学习获得的。 恒星分成不同的光谱型,星系按哈勃或形态分类,活动 星系核进一步细分,等等 方法 神经网络 决策树 Naïve Bayesian Networks 支持矢量机 学习矢量量化 遗传算法 …….

采用何种分类器? 分类算法 观测参量 分类 训练样本 分类器可以沿几个正交的轴来训练,探索所有的维数比较困难 决策树, OC1 神经网络 最近邻规则 或其他算法 分类器可以沿几个正交的轴来训练,探索所有的维数比较困难 不同的任务需要不同的分类器来实现. 观测参量 流量, 位置, 色参数, 变化参量, 空间扩展, … X射线, 可见光, 红外, ... 分类 粗分: 恒星 vs. 河外天体 细分: A0 vs. B0…, AGN vs. QSO vs. 星系 训练样本 WGACAT, ROSAT All Sky Survey, ...

聚类分析 定义: 应用: 方法: 优越性 新的概念(Concept discovery) 按照某种规律聚在一起的称为一类。 所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。 应用: SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。 方法: K均值聚类 Hierarchical clustering 预期最大算法(Expectation Maximization algorithm) 高斯混合模型(Gaussian mixture modeling) 主成分分析 …… 优越性 新的概念(Concept discovery) 点滴知识(Bootstrapping knowledge)

聚类分析 1 Djorgovski,etal.

基本的天文问题 – 1 聚类问题: 在数据集中查找聚类的天体 统计意义和科学意义上各个类别的重要性是什么? 找“朋友的朋友”或近邻的最优算法? N >1010, 如何有效地排序、分类? 维数 ~ 1000 – 因此, 若干子空间搜索问题 是否存在两点或更高阶的相关性? N >1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用

离群探测: (未知的未知) 基本的天文问题 – 2 找到那些超出我们预期的天体或事件 (不属于已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于: 新奇发现 –Nobel prize? 异常探测 – 探测系统是否正常工作? 数据质量保证 – 数据流是否正常工作? 在1000维空间中或感兴趣的子空间(低维空间)中,如何最优化地探测到离群? 怎样衡量“兴趣度”?

降维问题: 基本的天文问题 – 3 寻找相关性和参数的基平面 维数成千上万 维灾 ! 参数之间的相关性?线性或非线性混合? 本征值或紧致表示是否可以代表整个数据集的性质?

基本的天文问题 – 4 叠加和分解问题: 在参数空间中重叠的天体找出它们的所属类别 假设1010 天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用?

基本的天文问题 – 5 最优化问题: 在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然)

为什么需要分布的数据挖掘? 由于… “Just Checking” … 许多重大的科学发现产生 于多数据源的交叉证认: -- 类星体 -- Gamma-ray bursts -- 极亮红外星系 -- X射线黑洞双星 -- 射电星系 . . . “Just Checking”

天文数据的分布性 不同的人、研究所、项目、国家、机构, … 数据的异构性 (如,数据库, 图像, 星表, 文件系统, 网页, 文档数据图书馆, 二进制, 文本, 结构的,非结构的, …) 天文学家要查询和挖掘这些数据需要进行两步操作 尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展

分布的数据挖掘 分布的数据挖掘有两种类型: 分布的挖掘数据 挖掘分布的数据 第一类要求复杂的算法移植到数据 第二类多种形式, 数据整体存放或分割上集中, 或者数据分布存放在不同的地方

实践数据挖掘 线性或非线性 高斯或非高斯 连续或离散 是否存在缺值 对比特征和样本数 按照数据挖据的任务和特征, 选择合适的数据挖掘算法

未来天文数据的挑战 统计、计算和挖掘方法用于peta-和 exa-量级的可扩张性 在海量多维数据空间中同时多点拟合的算法优化 用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构 PB量级数据的可视化分析 (包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类, 新类型天体的发现, 降维) 高维PB级数据的索引和联合存储技巧(树、图、网络拓扑) PB级数据库的快速查询和搜索方法

成功的数据挖掘项目(I) http://dame.dsf.unina.it/ ● 测光红移估计 ● 球状星团搜寻 ●多波段测光暂源分类 ● 天文图像分割

Statistical Analysis for the Virtual Observatory 成功的数据挖掘项目(II) http://astrostatistics.psu.edu/vostat/ VOSTAT Statistical Analysis for the Virtual Observatory VOStat项目通过网页服务为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境R 开发的。所有的统计计算在VOStat 的服务器端进行,算完后再传给用户。

天文会议或组织 ADASS(The Astronomical Data Analysis Software and Systems) ADA(The Astronomical Data Analysis) Summer School in Statistics for Astronomers Statistical Challenges in Modern Astronomy Astroinformatics Astrostatistics

数据挖掘的参考文献(I) “From Data Mining To Knowledge Discovery: An Overview.” Fayyad, U.M., Piatetsky-Shapiro, G., and Smyth, P. In Advances In Knowledge Discovery And Data Mining , eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 1-34. “Data Mining and Machine Learning in Astronomy”, Ball, Nicholas M.; Brunner, Robert J. International Journal of Modern Physics D, Volume 19, Issue 07, pp. 1049-1106 (2010). ■ “Scientific Data Mining in Astronomy” Borne, Kirk eprint arXiv:0911.0505 ■ “Data Mining and Discovery of Astronomical Knowledge” Al-Naymat, Ghazi Scientific Data Mining and Knowledge Discovery, , Volume . ISBN 978-3-642-02789-5. Springer-Verlag Berlin Heidelberg, 2009, p. 319

数据挖掘的参考文献(II) “数据挖掘技术在天文学中的应用” 张彦霞 赵永恒. 科研信息化技术与应用, 2011,V2(3): 13-27 “Mining knowledge in astrophysical massive data sets” Brescia, Massimo; Longo, Giuseppe; Pasian, Fabio Nuclear Instruments and Methods in Physics Research Section A, Volume 623, Issue 2, p. 845-849. ■ “DAME: A Web Oriented Infrastructure for Scientific Data Mining & Exploration” Brescia, Massimo; Longo, Giuseppe; Djorgovski, George S.; Cavuoti, Stefano; D'Abrusco, Raffaele; Donalek, Ciro; Di Guido, Alessandro; Fiore, Michelangelo; Garofalo, Mauro; Laurino, Omar; Mahabal, Ashish; Manna, Francesco; Nocella, Alfonso; d'Angelo, Giovanni; Paolillo, Maurizio: eprint arXiv:1010.4843 “Data Mining and Machine-Learning in Time-Domain Discovery & Classification” Bloom, Joshua S.; Richards, Joseph W. eprint arXiv:1104.3142

Thank you very much !!!