Download presentation
Presentation is loading. Please wait.
1
数据挖掘科普 古宜民 7/15 Based on (copied from):
Data Mining Introductory And Advanced Topics
2
概述 问题: 过拟合 异常点 结果的解释、可视化 缺失数据 噪声数据 动态数据 (很多) 通常定义为从数据库中发现隐藏的信息
与传统数据库访问不同 基本数据挖掘任务: 分类 回归 预测 聚类 汇总 关联规则 序列发现 ... 问题: 过拟合 异常点 结果的解释、可视化 缺失数据 噪声数据 动态数据 (很多)
3
技术 点估计:偏差、平方误差等估计误差,对参数估计 基于汇总的模型:将数据作为一个整体描述、图形化方法 贝叶斯定理:可用于分类
假设检验:使用卡方统计量 回归和相关:曲线拟合->预测/两个变量相关程度 相似性度量:sim(t_i, t_j) in [0, 1],距离度量
4
技术 决策树:搜索空间分为若干子集 根和内部节点被标记一个问题,叶子节点代表一个预测 神经网络:有向图和算法,
输入节点、输出节点、内部节点、 一个节点:k个输入弧,权值w_1-w_k,一个输出值传播到所有输 出弧上 激励函数:输出值+权值->输出 遗传算法:优化,模拟染色体杂交、变异、选择
5
分类 定义:给定数据库D,类集合C,分类问题指定义映射f:D->C,其 中每个元组t_i分到一个类中,类C_j = {t_i | f(t_i) = C_j, 1<=i<=n} 通常步骤: 1.对训练集计算得模型(训练数据为输入,模型为输出),模型尽 量精确地将训练数据分类 2.将1中产生的模型应用与目标数据库进行分类 基本方法: 指定边界 利用概率
6
分类 问题 缺失数据 性能度量 TP, FP, TN, FN confusion matrix
7
分类 基于统计的算法 回归 贝叶斯分类 分割 预测 属性独立、作用相等
元组t_i,值x_i,测试集-> P(x_i), P(x_i | C_j), P(C_j), ->后验概率P(C_j | x_i)
8
分类 基于距离的算法 简单方法 K Nearest Neighbors
9
分类 基于决策树的算法 构建树/应用与数据库 搜索空间分割成矩形区域 树的规模独立于数据库的规模 朴素算法
10
分类 问题: 分裂属性 分裂属性的次序 分裂数目 树的结构(二叉?) 停止 剪枝
11
分类 ID3 最小化比较的期望数 最高信息增益 信息熵 C4.5和C5.0 改进的ID3 缺失数据 连续数据 剪枝 分裂
12
分类 CART 二叉树 确定最佳分裂点
13
分类 基于神经网络的算法 数据处理:传播 有指导学习 计算误差 权值调整 调整权值:反向传播,最小化误差 例:感知器
14
分类 基于规则的算法 从决策树生成 从神经网络生成 简单方法:1R
15
聚类 与分类相似,对数据分组 但组不是预先定义的,而是按数据间相似性定义的,组也称簇 困难 可视为无指导学习
16
聚类 相似性和距离度量 质心 半径、直径 簇间距离计算 异常点
17
聚类 层次算法 谱系图 凝聚算法:阀值合并 单连接、最小生成树 全连接 平均连接 分裂聚类:簇分裂 如单连接MST
18
聚类 划分算法:输入期待的簇数目,一步产生所有的簇 最小生成树:移除k-1条边 平方误差聚类 K-means 最邻近:阀值判断
19
END
Similar presentations