Presentation is loading. Please wait.

Presentation is loading. Please wait.

Data Mining & Knowledge Discovery

Similar presentations


Presentation on theme: "Data Mining & Knowledge Discovery"— Presentation transcript:

1 Data Mining & Knowledge Discovery
天文中的数据挖掘技术 Data Mining & Knowledge Discovery

2 形势发展的需要 必要性  各个领域在近二十年来取得突破性的研究进展  计算机技术, 网络技术和传感技术的飞速发展
 来自各个巡天计划和天文台的“数据雪崩”  科学家, 工程师和领域专家的缺乏 必要性

3 技术是一个驱动因素 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降
更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术

4 巨大的数据组 特征: -- 以Tebyte 甚至Pebyte 计量 -- 不均匀性 -- 动力学性
-- 高维性(加上时间维可达13维甚至更高维)

5

6

7 区 别 四 个 概 念 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S
数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 知识: 综合信息形成的观点和普适性的理论 智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶

8 数据挖掘的定义 定义: 半自动或自动地从海量数据中发现模式, 相关性, 变化, 反常规律性, 统计上的重要结构和事件. 在
天文上, 就是从海量数据中发现稀有的天体或现 象, 或者发现以前未知种类的天体或新天文现象. 特点:半自动或自动 提取 预测 大数据库

9 数据挖掘不同于传统上的统计学 前者: 发现驱动 (数据驱动) 数据研究 后者: 假设驱动 (人为驱动) 研究数据

10 数据挖掘依赖的基础  统计学  机器学习  数据库  高效率的计算

11 统计学 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代
`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 `s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用

12 计算机科学 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别 -- 1960`s: 统计方法与非统计方法的分流
-- 应用统计学与工程学的交叉 如: 统计图像分析 机器学习和神经网络 `s 非统计学习方法的失败 -- flexible models的出现,如: 树,网络 -- 应用统计学与学习方法的交叉

13 数据挖掘技术的出现 必然性 直接演化的结果: -- AI和机器学习 * 1989 KDD工作组2000 ACM SIGKDD工作组
*集中于自动发现 -- 数据库研究 * 大型数据组 * SIGMMODassociation rules,scalable algorithms -- 数据管理者 * 如何处理数据 * 面向客户 * 工业占主导的,面向应用 必然性

14

15 数据挖掘模型的分类 描述性模型: 描述数据中的模式, 用以创建有意义的 群或子群 预测性模型: 在从已知条件中确定的模式基础上, 预
测一些现象或数值

16 数据挖掘的分类 事件驱动性数据挖掘 相关驱动性数据挖掘

17 事件驱动性数据挖掘 已知事件/已知算法: 用已有的物理模型去确定数据中存在的 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在
人们感兴趣的已知现象, 无论空间上或时间上 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在 已知现象中存在新的观测相关性 未知事件/已知算法: 以天文现象的观测参数中存在着预期的 相关性来预测数据中存在着以前未知的事件 未知事件/未知算法: 用临界值确定瞬时事件或独特事件, 从而 发现新现象

18 相关驱动性数据挖掘 空间相关: 在天空中的同一位置证认天体 时间相关: 证认发生在相同时间或相关时间的 事件或现象
一致相关: 用聚类方法证认存在于同一多维参 数空间的现象

19 天文数据挖掘的科学要求 天体的交叉证认 天体的交叉相关 最近邻规则证认  系统的数据探索

20 天体的交叉证认 原理: 以源的位置为参量, 将存在于不同数据库 中的源联系起来, 用以加深对证认源的新 的天文理解
例子: gamma-ray暴的对应体 问题: 多波段数据库的交叉证认会产生一对一, 一对多,多对一,多对多,甚至多对无,对于 除一对一的情况, 有时需要用概率方法处

21 天体的交叉相关 原理: 用假定分析方法处理数据中的所有参数 例子: 在HDF巡天中,通过双色图中作为U波段
的“dropouts” 证认远距离星系 在DPOSS和SDSS巡天中,通过双色图中 远离正常恒星区的特性发现高红移类星

22

23

24 最近邻规则证认 原理: 在多维空间中运用聚类算法证认天体或现象 例子: 在TW长蛇座中过通过天体具有相似的运动学
特征, X射线发射, Hα和Li丰度, 发现了人们最 熟悉的年轻恒星族

25 系统的数据探索 原理: 在数据库中广泛地应用事件驱动性和相关 驱动性数据挖掘技术以偶然发现一种新天 体或新类型天体
例子: 新类型变星的发现, 如:在MACHO数据中发 现的“bumpers”

26 数据挖掘在天文中的具体应用 主分量分析方法 人工神经网络 EM算法 决策树 & …

27 主分量分析方法 (一) 应用举例:  利用光谱将K矮星从K巨星中区分出来  恒星,星系和类星体的光谱分类  星系的形态分类
 自动的红移确定  通过将发射线分解为几个独立量来研究 发射区的发射线的变化及其结构和动力 学特征  在观测基平面,即p维参数空间的一个子 空间中, 依据星系的形态,测光和动力学 分类来研究低红移星系和高红移星系

28 主分量分析方法 (二) 特点和优点:  非监督性  线性分析  PCA通过寻找变量最大投影轴, 判断有多少
独立变量, 并将相关量组合成新量, 这大大可 以减少计算的复杂性,同时保证尽可能小地丢 失信息,即降维  可以用以分解变量为几个独立分量  相比于反射映射或交叉相关方法, PCA对样 品要求不高  对数据预处理, 去掉一些不重要或无关量

29 人工神经网络 (一) 应用举例:  未分辩双星的光谱分类  恒星光谱分类  APM星系的形态分类  区分恒星和星系
 将恒星光谱物理参数化  区别不同 活动星系核的光谱

30

31 人工神经网络 (二) 特点和优点:  监督性  训练性  非线性  难理解性  受训练样本限制  输入量一般要先用PCA预处理
 若采用傅里叶变换, 不需知红移就可以对光谱分类 但在信噪比低时, 提高分类的效率, 红移可以确定  与传统方法相比, 其具有的优点: 不需预先对试验样本的统计分布 做假设,对各类不 需要直观判断, 该方法可用于处理各种问题

32 EM算法 (一)应用举例:  两种情形密度估计: 星系在红移空间的聚类 恒星在色空间的聚类  EM算法提供了星系在红移空间
的平滑分布,准确地描述了数据 库中数据的大小范围特征,同时, 提供了一种证认多维色空间中 的远离正常恒星的天体的方法, 例如:高红移类星体的证认

33 EM算法 (二) 特点和优点:  利用AIC & BIC 变坏的概率评价符合程度  优于最好的带核的密度估计方法对分布的
估计,同时,对输入参数的要求并不严格  优于标准的色选择技巧, 在于其证认天体是 建立在概率理论基础上  概率密度分布要受到维数的限制, 而EM算 法的维数可具方便而定  其描述了数据的正常分布, 从而可以在高维 空间中证认出远离者

34 贝叶斯分析 (一): 应用举例:  分析有关大尺度结构和微波背景 辐射的大尺度巡天  分析巡天的径向速度, 如:Mark III
SFI &ENEAR 巡天

35 贝叶斯分析 (二): 特点和优点: 基础: 最大概率分析方法估计参数 维纳滤波器重建基底场 蒙特卡罗方法对基底场取样
辅助方法: 拟合良好性分析方法 将重建速度场分解成局部量和 外延量的方法 约束N-body和氢动力学的模拟 提供优化工具, 可以分析有噪声的, 不完 备的,不均匀的高斯分布的随机 场巡天, 如: 密度场和速度场

36 混合模型 混合模型/Latent Variable models -- 主要思想是基于数据的提取或分类 -- 概率模型考虑系统方法
* 许多模型可以用图表格式表示 * 参数可由EM算法获得 * 模型结构可自动选择 -- 在机器学习/神经网络学习中, 对这些 模型进行了许多特大的调整 -- 隐含变量的学习发现结构

37 天文中常遇问题及处理 (一): 分类问题(1): 天体分类: 恒星/星系分类,类星体等 方法类型: 监督分类和非监督分类
方法类型: 监督分类和非监督分类 常用方法: 主分量分析(PCA) 最小距离方法(MDM) 高斯概率模型(GPM) 神经网(NN) 决策树

38 天文中常遇问题及处理 (一): 分类问题(2): 图像分类: 数字底片巡天中恒星/星系区别 常用方法: 聚类算法 最近邻规则 模糊集合理论
常用方法: 聚类算法 最近邻规则 模糊集合理论 自组织映射 神经网络 决策树 流行软件包: DAOPhot,FOCAS,Sextractor

39 天文中常遇问题及处理 (二): 数据压缩与分类: 光谱压缩与分类: 大红移巡天的星系光谱 大型光谱巡天 常用方法: 主分量分析(PCA)
独立分量分析(ICA) 信息瓶颈(IB) Fisher Matrix(FM) 小波变换 KL变换 方法对比: PCA & FM 线性分析 ICA & IB非线性分析 异于FM, PCA & IB 模型独立 IB监督的波长群在概念上接近FM ICA在计算上比PCA复杂,数据压缩 效率弱于PCA,但可以较好地分离混 合变量,相反于PCA,ICA对位置,方向, 带通选择的特征量敏感

40 天文中常用问题及处理 (三): 大尺度结构分析: 例子: 分析有关大尺度结构和微波背景辐射 的大尺度巡天
方法: 贝叶斯分析(Bayesian Analysis)

41 天文中常遇问题及处理 (四): 重建方法: 例子: 大尺度巡天中的速度场重建 在all-sky maps中, 从输入的
率大小 方法: 维纳滤波器 最大熵方法 主分量分析方法 FastICA 神经网络 小波

42 数据挖掘所面临的挑战  扩充数据挖掘算法  将数据挖掘方法应用到新的数据类型  发展分布的数据挖掘算法  提高数据挖掘方法的容易度

43 扩充数据挖掘算法  观测记录或观测次数的增长  每次观测参量的增长  用以分析一组观测的预测模型数的增长
 对交互式反应和真实反应时间减少的要 求的加强 需要多种算法的组合或新的算法

44 将数据挖掘方法应用到新的数据类型 时间序列数据 未组织数据,如文本 半组织数据, 如HTML和XML文件 多媒体的合作数据
多层次的,多度量单位的数据 集合数据

45 发展分布的数据挖掘算法  数据的分布特性  计算环境越来越普及 必须发展与之匹配的数据挖掘系统和算法

46 提高数据挖掘方法的容易度 数据挖掘自动化程度的提高 提高用户界面, 支持随机用户的浏览 提高大型分布数据的可视化程度
发展用以管理数据挖掘的元数据的技术和系统 发展恰当的语言和协议支持随机提取数据 提高数据挖掘和知识发现的环境收集加工 挖掘可视化以及必要的合作报告

47 数据挖掘技术改进的要求 支持单个研究数据挖掘者的研究 支持数据挖掘的基础学科的研究 支持多学科和交叉学科研究组研究
重要的, 基础的实用数据挖掘问题 提供对大的,大型的,分布的数据组 挖掘的恰当的实验场所

48 虚拟天文台VO 对数据挖掘技术提出的挑战  发展好的非监督分类技巧  发展强而有效的数据可视化技术  各种算法的交叉和重复使用
 发展好的非监督分类技巧  发展强而有效的数据可视化技术  各种算法的交叉和重复使用  设计和应用聚类分析方法需要天文学家, 计算机科学家和统计学家的真诚合作


Download ppt "Data Mining & Knowledge Discovery"

Similar presentations


Ads by Google