基于Apriori性质的多维关联规则数据挖掘

Slides:



Advertisements
Similar presentations
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
Advertisements

复习: :对任意的x∈A,都有x∈B。 集合A与集合B间的关系 A(B) A B :存在x0∈A,但x0∈B。 A B A B.
这是一个数字的 乐园 这里埋藏着丰富的 宝藏 请跟我一起走进数学的 殿堂.
第六节 美国 ■移民国家与多元化 ■现代化的农业 ■引领美国制造业的高新技术产业.
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
Some Knowledge of Machine Learning(1)
第二章 关联规则 Association rules
数据挖掘与商务智能 Data Mining & Business Intelligence
多元时间序列中 关联规则的发现 史忠植 董泽坤 中国科学院计算技术研究所 2017/3/15.
频繁模式与关联规则挖掘 林琛 博士、副教授.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
《高等数学》(理学) 常数项级数的概念 袁安锋
§1 线性空间的定义与性质 ★线性空间的定义 ★线性空间的性质 ★线性空间的子空间 线性空间是线性代数的高等部分,是代数学
常用逻辑用语复习课 李娟.
1.1.2 四 种 命 题.
第四次大作业 登陆学校图书馆网站的电子数据库
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
课标教材下教研工作的 实践与思考 山东临沂市教育科学研究中心 郭允远.
第八章二元一次方程组 8.3实际问题与二元一次方程组.
第八章二元一次方程组 8.3实际问题与二元一次方程组 (第3课时).
第三章 关联规则挖掘 Association Rule Mining
資訊管理 第九章 資料採礦.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
大型数据库中的关联规则挖掘.
第8章 關聯分析 王海.
管理信息结构SMI.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
Introduction to AI and ML
模型验证器VERDS Wenhui Zhang 31 MAY 2011.
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
基于类关联规则的分类 Classification Based on Class-Association Rules
数据说明 郝蕊.
使用矩阵表示 最小生成树算法.
1.2子集、全集、补集(二) 楚水实验学校高一数学备课组.
VB与Access数据库的连接.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
复习.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
基于知识库对自然语言中属性取值对的探索 潘笑吟.
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1.2 空间向量的数量积运算 1.了解空间向量夹角的概念及表示方法. 2.掌握空间向量数量积的计算方法及应用.
数据集的抽取式摘要 程龚, 徐丹云.
1.2 子集、补集、全集习题课.
1.设A和B是集合,证明:A=B当且仅当A∩B=A∪B
Chapter 18 使用GRASP的对象设计示例.
第4课时 绝对值.
Visual Basic程序设计 第13章 访问数据库
基于最大margin的决策树归纳 李 宁.
2.2矩阵的代数运算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
轴对称在几何证明及计算中的应用(1) ———角平分线中的轴对称.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
《离散结构》 二元运算性质的判断 西安工程大学计算机科学学院 王爱丽.
§2 方阵的特征值与特征向量.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
VB与Access数据库的连接.
§4.5 最大公因式的矩阵求法( Ⅱ ).
最小生成树 最优二叉树.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
9.3多项式乘多项式.
Presentation transcript:

基于Apriori性质的多维关联规则数据挖掘 汇报人:王雷

背景知识 关于数据挖掘 关联规则及Apriori算法

数据挖掘是一项从大量的记录数据中提取有价值的、人们感兴趣的知识,这些知识是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regular ides)、模式(Patterns)等形式。 关联规则是当前数据挖掘研究的主要方法之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系 。 例:在销售手机的商店中,70%的包含手机的交易中包含充电器,在所有交易中,有56%同时包含这两种物品。 于是规则表示为手机 充电器 (可信度70%,支持度56%)

关联规则的基本概念 设 是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事物T是项的集合,使得 每一个事务有一个标识符TID,设A是一个项集,事务T包含A当且仅当 。关联规则是形如 的蕴涵式,其中 , 并且规则在事务D中成立具有支持度S和置信度C, 把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称为项集(itemset),包含K个项集称为K-项集,如果项集满足最小支持度,则称它为频繁项集。

关联规则的挖掘是一个两步的过程: 1、找出所有频繁项集 2、由频繁项集产生强关联规则,根据定义,这些规则必须满足最小支持度和最小置信度。

Apriori算法 Apriori算法是最有影响的关联规则挖掘算法之一。它的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1 - 项集. 接下来的工作是循环的,每次循环分2步进行: 1)连接,对频繁k - 项集中的项进行连接. 2)减枝,在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选( k + 1) - 项集.即 对数据库进行扫描, 计算候选项的支持度,从候选集中删除支持度小于最小支持度的候选项, 进而得出频繁( k + 1) - 项集. 循环的终止条件是频繁k - 项集为空, 也就是说再也找不出相关联的项目了.

举例说明Aporiori算法 数据库 D 扫描 D C1 L1 L2 C2 C3 L3

Apriori性质 频繁项集的所有非空子集也是频繁的 例如:如果{AB} 是频繁项目集,则 {A} {B} 也一定是频繁项目集

加权关联规则挖掘 传统的关联规则挖掘算法通常都认为数据库里每个项目都有相同的重要性,没有主要、次要之分。但在实际中,往往存在一类这样的情况:用户对每个项目的看重程度不一样,有的项目是用户最看重、最关心的,有的项目是用户关注性不大,因此需要引进权重的概念。

加权关联规则的描述 设 是项的集合,每个项都有一个权值与之对应。它们的权值分别是{w1,w2,…,wk}(wi ∈[0,1])。事先指定最小加权支持度阈值为 wminsup和最小置信度阈值 minconf。 对于项目集X,如果 wsup(X)≥wminsup,则 X 是加权频繁的。 形如X →Y 的关联规则的加权支持度为: 置 信 度 的 定 义 仍 然 沿 用 Apriori算 法 里 的 定 义 , 即 :conf (X →Y) = sup(X ∪Y)/sup(X ) 。

加权关联规则的描述 对于项目集 X、Y, ,X ∩Y =φ ,如果有 wsup( X ∪Y )≥wminsup,且 conf(X→Y)≥minconf,则称 X→Y 是一条加权关联规则。

权值的设定 加权支持度 (1)、平均值: (2)、归一化: (3)、最大值:

想法 (1) 先不考虑项目的权值,利用传统的 Apriori 算法找出支持度不小于最小加权支持度的所有的频繁项目集。由于项目集的权值小于 1,所以项目集的加权支持度一定小于支持度,所以生成的频繁集一定是加权频繁集的超集。 (2) 计算所生成频繁项目集中所有项目集的加权支持度,并把加权支持度小于最小加权支持度的项目集删除,从而得到所有加权频繁集。 (3) 利用加权频繁集来生成所有的加权关联规则。

Apriori的瓶颈 Apriori算法的核心: 用频繁的(k – 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 {a1, a2, …,a100}, 你必须先产生2100  1030 个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描

提高Apriori效率的方法 基于哈希表的算法 事务压缩: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集 基于划分: 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。 采样: 在给定数据的子集上挖掘,使用小的支持度+完整性验证方法 动态项集计数: 在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。 基于哈希表的算法

今后的工作 加权关联规则挖掘算法的研究,项目属性加权后,Apriori性质不再适用,算法如何优化。

参考文献 [1] 范明,孟小峰等译.数据挖掘:概念与技术.北京:机械工业出版社,2001. [2] Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules. In: Proc of 1994 Int’1Conf of Very Large Data Base. Santiago, Chili: VLDB Endowment, 1994, 487~499. [3]胡和平, 路松峰. 加权关联规则的开采. 小型微型计算机系统,2001,22(3): 347~375. [4]张文献, 陆建江. 加权布尔型关联规则的研究. 计算机工程, 2003, 29(9): 55~57. [5]张智军, 方颖, 许云涛. 基于Apriori算法的水平加权关联规则挖掘. 计算机工程与应用, 2003, 39(14): 197~199.

[6] R. Agrawal, et al. Mining association rules between sets of items in lager databases. In: Proc.ACM SIGMOD int'1 conf. management of data, Washington, DC, May 1993, 207-216. [7] Wei wang, Effcient Mining of weighted Association rules.