Data Mining & Knowledge Discovery

Slides:



Advertisements
Similar presentations
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
Advertisements

信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
证券投资技术分析.
LAMOST 天文学中的数据挖掘 张彦霞 国家天文台 贵阳.
淄博信息工程学校 ZIBOIT&ENGINEERING VOCATONAL SHCOOL 03 交换机干道技术 计算机网络技术专业.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
人工智能技术导论 廉师友编著 西安电子科技大学出版社.
不确定度的传递与合成 间接测量结果不确定度的评估
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
数据仓库与数据挖掘实验.
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
Overview of Python Visualization Tools
Chinese Virtual Observatory
物体识别 3D建图 semantic mapping
管理信息结构SMI.
基于全方位视觉的多人体运动检测跟踪 利用全方位摄像机获取360˚ 的环境信息,在室内对多个人体目标进行实时运动检测。
数 控 技 术 华中科技大学机械科学与工程学院.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
Introduction to AI and ML
Online job scheduling in Distributed Machine Learning Clusters
数学模型实验课(三) 插值与三维图形.
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
1085至1125年间的官员地域分布与社会关系 1.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
多媒体技术 中南大学信息科学与工程学院 黄东军.
工业机器人技术基础及应用 主讲人:顾老师
SOA – Experiment 2: Query Classification Web Service
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
C语言程序设计 主讲教师:陆幼利.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
微机系统的组成.
模型分类问题 Presented by 刘婷婷 苏琬琳.
VisComposer 2019/4/17.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
M31晕中一个著名的球状星团G1的多色测光研究
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
聚类 IRLAB.
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
北师大版五年级数学下册 分数乘法(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
数据集的抽取式摘要 程龚, 徐丹云.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
昆明理工大学先进计算软件技术与应用云南省创新团队昆明理工大学计算机应用重点实验室
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
人工智能 制作人:蔡燊林 张恩玮.
基于最大margin的决策树归纳 李 宁.
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
多波段数据 交叉证认工具的实现 高丹 China-VO项目组 中国科学院国家天文台 第三届中国虚拟天文台研讨会☆武汉☆
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第十七讲 密码执行(1).
插入排序的正确性证明 以及各种改进方法.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
高中物理“平抛运动的应用” 点评专家:谭一宁.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

Data Mining & Knowledge Discovery 天文中的数据挖掘技术 Data Mining & Knowledge Discovery

形势发展的需要 必要性  各个领域在近二十年来取得突破性的研究进展  计算机技术, 网络技术和传感技术的飞速发展  来自各个巡天计划和天文台的“数据雪崩”  科学家, 工程师和领域专家的缺乏 必要性

技术是一个驱动因素 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降 更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术

巨大的数据组 特征: -- 以Tebyte 甚至Pebyte 计量 -- 不均匀性 -- 动力学性 -- 高维性(加上时间维可达13维甚至更高维)

区 别 四 个 概 念 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 数据: 原始的, 未解释的信号或者符号, 如: 1 信息: 有一定解释或意义的数据, 如: S.O.S 知识: 综合信息形成的观点和普适性的理论 智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶

数据挖掘的定义 定义: 半自动或自动地从海量数据中发现模式, 相关性, 变化, 反常规律性, 统计上的重要结构和事件. 在 天文上, 就是从海量数据中发现稀有的天体或现 象, 或者发现以前未知种类的天体或新天文现象. 特点:半自动或自动 提取 预测 大数据库

数据挖掘不同于传统上的统计学 前者: 发现驱动 (数据驱动) 数据研究 后者: 假设驱动 (人为驱动) 研究数据

数据挖掘依赖的基础  统计学  机器学习  数据库  高效率的计算

统计学 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代 -- 1950`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 -- 1970`s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用

计算机科学 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别 -- 1960`s: 统计方法与非统计方法的分流 -- 应用统计学与工程学的交叉 如: 统计图像分析 机器学习和神经网络 -- 1980`s 非统计学习方法的失败 -- flexible models的出现,如: 树,网络 -- 应用统计学与学习方法的交叉

数据挖掘技术的出现 必然性 直接演化的结果: -- AI和机器学习 * 1989 KDD工作组2000 ACM SIGKDD工作组 *集中于自动发现 -- 数据库研究 * 大型数据组 * SIGMMODassociation rules,scalable algorithms -- 数据管理者 * 如何处理数据 * 面向客户 * 工业占主导的,面向应用 必然性

数据挖掘模型的分类 描述性模型: 描述数据中的模式, 用以创建有意义的 群或子群 预测性模型: 在从已知条件中确定的模式基础上, 预 测一些现象或数值

数据挖掘的分类 事件驱动性数据挖掘 相关驱动性数据挖掘

事件驱动性数据挖掘 已知事件/已知算法: 用已有的物理模型去确定数据中存在的 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在 人们感兴趣的已知现象, 无论空间上或时间上 已知事件/未知算法: 用模式识别或数据的聚类特性来发现在 已知现象中存在新的观测相关性 未知事件/已知算法: 以天文现象的观测参数中存在着预期的 相关性来预测数据中存在着以前未知的事件 未知事件/未知算法: 用临界值确定瞬时事件或独特事件, 从而 发现新现象

相关驱动性数据挖掘 空间相关: 在天空中的同一位置证认天体 时间相关: 证认发生在相同时间或相关时间的 事件或现象 一致相关: 用聚类方法证认存在于同一多维参 数空间的现象

天文数据挖掘的科学要求 天体的交叉证认 天体的交叉相关 最近邻规则证认  系统的数据探索

天体的交叉证认 原理: 以源的位置为参量, 将存在于不同数据库 中的源联系起来, 用以加深对证认源的新 的天文理解 例子: gamma-ray暴的对应体 问题: 多波段数据库的交叉证认会产生一对一, 一对多,多对一,多对多,甚至多对无,对于 除一对一的情况, 有时需要用概率方法处 理

天体的交叉相关 原理: 用假定分析方法处理数据中的所有参数 例子: 在HDF巡天中,通过双色图中作为U波段 的“dropouts” 证认远距离星系 在DPOSS和SDSS巡天中,通过双色图中 远离正常恒星区的特性发现高红移类星 体

最近邻规则证认 原理: 在多维空间中运用聚类算法证认天体或现象 例子: 在TW长蛇座中过通过天体具有相似的运动学 特征, X射线发射, Hα和Li丰度, 发现了人们最 熟悉的年轻恒星族

系统的数据探索 原理: 在数据库中广泛地应用事件驱动性和相关 驱动性数据挖掘技术以偶然发现一种新天 体或新类型天体 例子: 新类型变星的发现, 如:在MACHO数据中发 现的“bumpers”

数据挖掘在天文中的具体应用 主分量分析方法 人工神经网络 EM算法 决策树 & …

主分量分析方法 (一) 应用举例:  利用光谱将K矮星从K巨星中区分出来  恒星,星系和类星体的光谱分类  星系的形态分类  自动的红移确定  通过将发射线分解为几个独立量来研究 发射区的发射线的变化及其结构和动力 学特征  在观测基平面,即p维参数空间的一个子 空间中, 依据星系的形态,测光和动力学 分类来研究低红移星系和高红移星系

主分量分析方法 (二) 特点和优点:  非监督性  线性分析  PCA通过寻找变量最大投影轴, 判断有多少 独立变量, 并将相关量组合成新量, 这大大可 以减少计算的复杂性,同时保证尽可能小地丢 失信息,即降维  可以用以分解变量为几个独立分量  相比于反射映射或交叉相关方法, PCA对样 品要求不高  对数据预处理, 去掉一些不重要或无关量

人工神经网络 (一) 应用举例:  未分辩双星的光谱分类  恒星光谱分类  APM星系的形态分类  区分恒星和星系  将恒星光谱物理参数化  区别不同 活动星系核的光谱

人工神经网络 (二) 特点和优点:  监督性  训练性  非线性  难理解性  受训练样本限制  输入量一般要先用PCA预处理  若采用傅里叶变换, 不需知红移就可以对光谱分类 但在信噪比低时, 提高分类的效率, 红移可以确定  与传统方法相比, 其具有的优点: 不需预先对试验样本的统计分布 做假设,对各类不 需要直观判断, 该方法可用于处理各种问题

EM算法 (一)应用举例:  两种情形密度估计: 星系在红移空间的聚类 恒星在色空间的聚类  EM算法提供了星系在红移空间 的平滑分布,准确地描述了数据 库中数据的大小范围特征,同时, 提供了一种证认多维色空间中 的远离正常恒星的天体的方法, 例如:高红移类星体的证认

EM算法 (二) 特点和优点:  利用AIC & BIC 变坏的概率评价符合程度  优于最好的带核的密度估计方法对分布的 估计,同时,对输入参数的要求并不严格  优于标准的色选择技巧, 在于其证认天体是 建立在概率理论基础上  概率密度分布要受到维数的限制, 而EM算 法的维数可具方便而定  其描述了数据的正常分布, 从而可以在高维 空间中证认出远离者

贝叶斯分析 (一): 应用举例:  分析有关大尺度结构和微波背景 辐射的大尺度巡天  分析巡天的径向速度, 如:Mark III SFI &ENEAR 巡天

贝叶斯分析 (二): 特点和优点: 基础: 最大概率分析方法估计参数 维纳滤波器重建基底场 蒙特卡罗方法对基底场取样 辅助方法: 拟合良好性分析方法 将重建速度场分解成局部量和 外延量的方法 约束N-body和氢动力学的模拟 提供优化工具, 可以分析有噪声的, 不完 备的,不均匀的高斯分布的随机 场巡天, 如: 密度场和速度场

混合模型 混合模型/Latent Variable models -- 主要思想是基于数据的提取或分类 -- 概率模型考虑系统方法 * 许多模型可以用图表格式表示 * 参数可由EM算法获得 * 模型结构可自动选择 -- 在机器学习/神经网络学习中, 对这些 模型进行了许多特大的调整 -- 隐含变量的学习发现结构

天文中常遇问题及处理 (一): 分类问题(1): 天体分类: 恒星/星系分类,类星体等 方法类型: 监督分类和非监督分类 方法类型: 监督分类和非监督分类 常用方法: 主分量分析(PCA) 最小距离方法(MDM) 高斯概率模型(GPM) 神经网(NN) 决策树

天文中常遇问题及处理 (一): 分类问题(2): 图像分类: 数字底片巡天中恒星/星系区别 常用方法: 聚类算法 最近邻规则 模糊集合理论 常用方法: 聚类算法 最近邻规则 模糊集合理论 自组织映射 神经网络 决策树 流行软件包: DAOPhot,FOCAS,Sextractor

天文中常遇问题及处理 (二): 数据压缩与分类: 光谱压缩与分类: 大红移巡天的星系光谱 大型光谱巡天 常用方法: 主分量分析(PCA) 独立分量分析(ICA) 信息瓶颈(IB) Fisher Matrix(FM) 小波变换 KL变换 方法对比: PCA & FM 线性分析 ICA & IB非线性分析 异于FM, PCA & IB 模型独立 IB监督的波长群在概念上接近FM ICA在计算上比PCA复杂,数据压缩 效率弱于PCA,但可以较好地分离混 合变量,相反于PCA,ICA对位置,方向, 带通选择的特征量敏感

天文中常用问题及处理 (三): 大尺度结构分析: 例子: 分析有关大尺度结构和微波背景辐射 的大尺度巡天 方法: 贝叶斯分析(Bayesian Analysis)

天文中常遇问题及处理 (四): 重建方法: 例子: 大尺度巡天中的速度场重建 在all-sky maps中, 从输入的 率大小 方法: 维纳滤波器 最大熵方法 主分量分析方法 FastICA 神经网络 小波

数据挖掘所面临的挑战  扩充数据挖掘算法  将数据挖掘方法应用到新的数据类型  发展分布的数据挖掘算法  提高数据挖掘方法的容易度

扩充数据挖掘算法  观测记录或观测次数的增长  每次观测参量的增长  用以分析一组观测的预测模型数的增长  对交互式反应和真实反应时间减少的要 求的加强 需要多种算法的组合或新的算法

将数据挖掘方法应用到新的数据类型 时间序列数据 未组织数据,如文本 半组织数据, 如HTML和XML文件 多媒体的合作数据 多层次的,多度量单位的数据 集合数据

发展分布的数据挖掘算法  数据的分布特性  计算环境越来越普及 必须发展与之匹配的数据挖掘系统和算法

提高数据挖掘方法的容易度 数据挖掘自动化程度的提高 提高用户界面, 支持随机用户的浏览 提高大型分布数据的可视化程度 发展用以管理数据挖掘的元数据的技术和系统 发展恰当的语言和协议支持随机提取数据 提高数据挖掘和知识发现的环境收集加工 挖掘可视化以及必要的合作报告

数据挖掘技术改进的要求 支持单个研究数据挖掘者的研究 支持数据挖掘的基础学科的研究 支持多学科和交叉学科研究组研究 重要的, 基础的实用数据挖掘问题 提供对大的,大型的,分布的数据组 挖掘的恰当的实验场所

虚拟天文台VO 对数据挖掘技术提出的挑战  发展好的非监督分类技巧  发展强而有效的数据可视化技术  各种算法的交叉和重复使用  发展好的非监督分类技巧  发展强而有效的数据可视化技术  各种算法的交叉和重复使用  设计和应用聚类分析方法需要天文学家, 计算机科学家和统计学家的真诚合作