Data Mining & Knowledge Discovery 天文中的数据挖掘技术 Data Mining & Knowledge Discovery
形势发展的需要 必要性 各个领域在近二十年来取得突破性的研究进展 计算机技术, 网络技术和传感技术的飞速发展 来自各个巡天计划和天文台的“数据雪崩” 科学家, 工程师和领域专家的缺乏 必要性
技术是一个驱动因素 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降 更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术
巨大的数据组 特征: -- 以Tebyte 甚至Pebyte 计量 -- 不均匀性 -- 动力学性 -- 高维性(加上时间维可达13维甚至更高维)
区 别 四 个 概 念 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 知识: 综合信息形成的观点和普适性的理论 智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶
数据挖掘的定义 定义: 半自动或自动地从海量数据中发现模式, 相关性, 变化, 反常规律性, 统计上的重要结构和事件. 在 天文上, 就是从海量数据中发现稀有的天体或现 象, 或者发现以前未知种类的天体或新天文现象. 特点:半自动或自动 提取 预测 大数据库
数据挖掘不同于传统上的统计学 前者: 发现驱动 (数据驱动) 数据研究 后者: 假设驱动 (人为驱动) 研究数据
数据挖掘依赖的基础 统计学 机器学习 数据库 高效率的计算
统计学 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代 -- 1950`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 -- 1970`s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用
计算机科学 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别 -- 1960`s: 统计方法与非统计方法的分流 -- 应用统计学与工程学的交叉 如: 统计图像分析 机器学习和神经网络 -- 1980`s 非统计学习方法的失败 -- flexible models的出现,如: 树,网络 -- 应用统计学与学习方法的交叉
数据挖掘技术的出现 必然性 直接演化的结果: -- AI和机器学习 * 1989 KDD工作组2000 ACM SIGKDD工作组 *集中于自动发现 -- 数据库研究 * 大型数据组 * SIGMMODassociation rules,scalable algorithms -- 数据管理者 * 如何处理数据 * 面向客户 * 工业占主导的,面向应用 必然性
数据挖掘模型的分类 描述性模型: 描述数据中的模式, 用以创建有意义的 群或子群 预测性模型: 在从已知条件中确定的模式基础上, 预 测一些现象或数值
数据挖掘的分类 事件驱动性数据挖掘 相关驱动性数据挖掘
事件驱动性数据挖掘 已知事件/已知算法: 用已有的物理模型去确定数据中存在的 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在 人们感兴趣的已知现象, 无论空间上或时间上 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在 已知现象中存在新的观测相关性 未知事件/已知算法: 以天文现象的观测参数中存在着预期的 相关性来预测数据中存在着以前未知的事件 未知事件/未知算法: 用临界值确定瞬时事件或独特事件, 从而 发现新现象
相关驱动性数据挖掘 空间相关: 在天空中的同一位置证认天体 时间相关: 证认发生在相同时间或相关时间的 事件或现象 一致相关: 用聚类方法证认存在于同一多维参 数空间的现象
天文数据挖掘的科学要求 天体的交叉证认 天体的交叉相关 最近邻规则证认 系统的数据探索
天体的交叉证认 原理: 以源的位置为参量, 将存在于不同数据库 中的源联系起来, 用以加深对证认源的新 的天文理解 例子: gamma-ray暴的对应体 问题: 多波段数据库的交叉证认会产生一对一, 一对多,多对一,多对多,甚至多对无,对于 除一对一的情况, 有时需要用概率方法处 理
天体的交叉相关 原理: 用假定分析方法处理数据中的所有参数 例子: 在HDF巡天中,通过双色图中作为U波段 的“dropouts” 证认远距离星系 在DPOSS和SDSS巡天中,通过双色图中 远离正常恒星区的特性发现高红移类星 体
最近邻规则证认 原理: 在多维空间中运用聚类算法证认天体或现象 例子: 在TW长蛇座中过通过天体具有相似的运动学 特征, X射线发射, Hα和Li丰度, 发现了人们最 熟悉的年轻恒星族
系统的数据探索 原理: 在数据库中广泛地应用事件驱动性和相关 驱动性数据挖掘技术以偶然发现一种新天 体或新类型天体 例子: 新类型变星的发现, 如:在MACHO数据中发 现的“bumpers”
数据挖掘在天文中的具体应用 主分量分析方法 人工神经网络 EM算法 决策树 & …
主分量分析方法 (一) 应用举例: 利用光谱将K矮星从K巨星中区分出来 恒星,星系和类星体的光谱分类 星系的形态分类 自动的红移确定 通过将发射线分解为几个独立量来研究 发射区的发射线的变化及其结构和动力 学特征 在观测基平面,即p维参数空间的一个子 空间中, 依据星系的形态,测光和动力学 分类来研究低红移星系和高红移星系
主分量分析方法 (二) 特点和优点: 非监督性 线性分析 PCA通过寻找变量最大投影轴, 判断有多少 独立变量, 并将相关量组合成新量, 这大大可 以减少计算的复杂性,同时保证尽可能小地丢 失信息,即降维 可以用以分解变量为几个独立分量 相比于反射映射或交叉相关方法, PCA对样 品要求不高 对数据预处理, 去掉一些不重要或无关量
人工神经网络 (一) 应用举例: 未分辩双星的光谱分类 恒星光谱分类 APM星系的形态分类 区分恒星和星系 将恒星光谱物理参数化 区别不同 活动星系核的光谱
人工神经网络 (二) 特点和优点: 监督性 训练性 非线性 难理解性 受训练样本限制 输入量一般要先用PCA预处理 若采用傅里叶变换, 不需知红移就可以对光谱分类 但在信噪比低时, 提高分类的效率, 红移可以确定 与传统方法相比, 其具有的优点: 不需预先对试验样本的统计分布 做假设,对各类不 需要直观判断, 该方法可用于处理各种问题
EM算法 (一)应用举例: 两种情形密度估计: 星系在红移空间的聚类 恒星在色空间的聚类 EM算法提供了星系在红移空间 的平滑分布,准确地描述了数据 库中数据的大小范围特征,同时, 提供了一种证认多维色空间中 的远离正常恒星的天体的方法, 例如:高红移类星体的证认
EM算法 (二) 特点和优点: 利用AIC & BIC 变坏的概率评价符合程度 优于最好的带核的密度估计方法对分布的 估计,同时,对输入参数的要求并不严格 优于标准的色选择技巧, 在于其证认天体是 建立在概率理论基础上 概率密度分布要受到维数的限制, 而EM算 法的维数可具方便而定 其描述了数据的正常分布, 从而可以在高维 空间中证认出远离者
贝叶斯分析 (一): 应用举例: 分析有关大尺度结构和微波背景 辐射的大尺度巡天 分析巡天的径向速度, 如:Mark III SFI &ENEAR 巡天
贝叶斯分析 (二): 特点和优点: 基础: 最大概率分析方法估计参数 维纳滤波器重建基底场 蒙特卡罗方法对基底场取样 辅助方法: 拟合良好性分析方法 将重建速度场分解成局部量和 外延量的方法 约束N-body和氢动力学的模拟 提供优化工具, 可以分析有噪声的, 不完 备的,不均匀的高斯分布的随机 场巡天, 如: 密度场和速度场
混合模型 混合模型/Latent Variable models -- 主要思想是基于数据的提取或分类 -- 概率模型考虑系统方法 * 许多模型可以用图表格式表示 * 参数可由EM算法获得 * 模型结构可自动选择 -- 在机器学习/神经网络学习中, 对这些 模型进行了许多特大的调整 -- 隐含变量的学习发现结构
天文中常遇问题及处理 (一): 分类问题(1): 天体分类: 恒星/星系分类,类星体等 方法类型: 监督分类和非监督分类 方法类型: 监督分类和非监督分类 常用方法: 主分量分析(PCA) 最小距离方法(MDM) 高斯概率模型(GPM) 神经网(NN) 决策树
天文中常遇问题及处理 (一): 分类问题(2): 图像分类: 数字底片巡天中恒星/星系区别 常用方法: 聚类算法 最近邻规则 模糊集合理论 常用方法: 聚类算法 最近邻规则 模糊集合理论 自组织映射 神经网络 决策树 流行软件包: DAOPhot,FOCAS,Sextractor
天文中常遇问题及处理 (二): 数据压缩与分类: 光谱压缩与分类: 大红移巡天的星系光谱 大型光谱巡天 常用方法: 主分量分析(PCA) 独立分量分析(ICA) 信息瓶颈(IB) Fisher Matrix(FM) 小波变换 KL变换 方法对比: PCA & FM 线性分析 ICA & IB非线性分析 异于FM, PCA & IB 模型独立 IB监督的波长群在概念上接近FM ICA在计算上比PCA复杂,数据压缩 效率弱于PCA,但可以较好地分离混 合变量,相反于PCA,ICA对位置,方向, 带通选择的特征量敏感
天文中常用问题及处理 (三): 大尺度结构分析: 例子: 分析有关大尺度结构和微波背景辐射 的大尺度巡天 方法: 贝叶斯分析(Bayesian Analysis)
天文中常遇问题及处理 (四): 重建方法: 例子: 大尺度巡天中的速度场重建 在all-sky maps中, 从输入的 率大小 方法: 维纳滤波器 最大熵方法 主分量分析方法 FastICA 神经网络 小波
数据挖掘所面临的挑战 扩充数据挖掘算法 将数据挖掘方法应用到新的数据类型 发展分布的数据挖掘算法 提高数据挖掘方法的容易度
扩充数据挖掘算法 观测记录或观测次数的增长 每次观测参量的增长 用以分析一组观测的预测模型数的增长 对交互式反应和真实反应时间减少的要 求的加强 需要多种算法的组合或新的算法
将数据挖掘方法应用到新的数据类型 时间序列数据 未组织数据,如文本 半组织数据, 如HTML和XML文件 多媒体的合作数据 多层次的,多度量单位的数据 集合数据
发展分布的数据挖掘算法 数据的分布特性 计算环境越来越普及 必须发展与之匹配的数据挖掘系统和算法
提高数据挖掘方法的容易度 数据挖掘自动化程度的提高 提高用户界面, 支持随机用户的浏览 提高大型分布数据的可视化程度 发展用以管理数据挖掘的元数据的技术和系统 发展恰当的语言和协议支持随机提取数据 提高数据挖掘和知识发现的环境收集加工 挖掘可视化以及必要的合作报告
数据挖掘技术改进的要求 支持单个研究数据挖掘者的研究 支持数据挖掘的基础学科的研究 支持多学科和交叉学科研究组研究 重要的, 基础的实用数据挖掘问题 提供对大的,大型的,分布的数据组 挖掘的恰当的实验场所
虚拟天文台VO 对数据挖掘技术提出的挑战 发展好的非监督分类技巧 发展强而有效的数据可视化技术 各种算法的交叉和重复使用 发展好的非监督分类技巧 发展强而有效的数据可视化技术 各种算法的交叉和重复使用 设计和应用聚类分析方法需要天文学家, 计算机科学家和统计学家的真诚合作