数据挖掘科普古宜民 7/15 Based on (copied from):

数据挖掘科普古宜民 7/15 Based on (copied from):
Data Mining Introductory And Advanced Topics

概述问题：过拟合异常点结果的解释、可视化缺失数据噪声数据动态数据（很多）通常定义为从数据库中发现隐藏的信息
与传统数据库访问不同基本数据挖掘任务：分类回归预测聚类汇总关联规则序列发现 ... 问题：过拟合异常点结果的解释、可视化缺失数据噪声数据动态数据（很多）

技术点估计：偏差、平方误差等估计误差，对参数估计基于汇总的模型：将数据作为一个整体描述、图形化方法贝叶斯定理：可用于分类
假设检验：使用卡方统计量回归和相关：曲线拟合->预测/两个变量相关程度相似性度量：sim(t_i, t_j) in [0, 1]，距离度量

技术决策树：搜索空间分为若干子集根和内部节点被标记一个问题，叶子节点代表一个预测神经网络：有向图和算法，
输入节点、输出节点、内部节点、一个节点：k个输入弧，权值w_1-w_k，一个输出值传播到所有输出弧上激励函数：输出值+权值->输出遗传算法：优化，模拟染色体杂交、变异、选择

分类定义：给定数据库D，类集合C，分类问题指定义映射f:D->C，其中每个元组t_i分到一个类中，类C_j = {t_i | f(t_i) = C_j, 1<=i<=n} 通常步骤： 1.对训练集计算得模型（训练数据为输入，模型为输出），模型尽量精确地将训练数据分类 2.将1中产生的模型应用与目标数据库进行分类基本方法：指定边界利用概率

分类问题缺失数据性能度量 TP, FP, TN, FN confusion matrix

分类基于统计的算法回归贝叶斯分类分割预测属性独立、作用相等
元组t_i，值x_i，测试集-> P(x_i), P(x_i | C_j), P(C_j), ->后验概率P(C_j | x_i)

分类基于距离的算法简单方法 K Nearest Neighbors

分类基于决策树的算法构建树/应用与数据库搜索空间分割成矩形区域树的规模独立于数据库的规模朴素算法

分类问题：分裂属性分裂属性的次序分裂数目树的结构（二叉？）停止剪枝

分类 ID3 最小化比较的期望数最高信息增益信息熵 C4.5和C5.0 改进的ID3 缺失数据连续数据剪枝分裂

分类 CART 二叉树确定最佳分裂点

分类基于神经网络的算法数据处理：传播有指导学习计算误差权值调整调整权值：反向传播，最小化误差例：感知器

分类基于规则的算法从决策树生成从神经网络生成简单方法：1R

聚类与分类相似，对数据分组但组不是预先定义的，而是按数据间相似性定义的，组也称簇困难可视为无指导学习

聚类相似性和距离度量质心半径、直径簇间距离计算异常点

聚类层次算法谱系图凝聚算法：阀值合并单连接、最小生成树全连接平均连接分裂聚类：簇分裂如单连接MST

聚类划分算法：输入期待的簇数目，一步产生所有的簇最小生成树：移除k-1条边平方误差聚类 K-means 最邻近：阀值判断

数据挖掘科普古宜民 7/15 Based on (copied from):

Similar presentations

Presentation on theme: "数据挖掘科普古宜民 7/15 Based on (copied from):"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

数据挖掘科普 古宜民 7/15 Based on (copied from):

Similar presentations

Presentation on theme: "数据挖掘科普 古宜民 7/15 Based on (copied from):"— Presentation transcript:

Similar presentations

About project

反馈

数据挖掘科普古宜民 7/15 Based on (copied from):

Presentation on theme: "数据挖掘科普古宜民 7/15 Based on (copied from):"— Presentation transcript: