第二章 关联规则 Association rules

Slides:



Advertisements
Similar presentations
加強輔導課程家長簡介會 時間: 9 月 30 日(二) 晚上 : 6:45 至 8 : 00 地點:禮堂.
Advertisements

九十五年國文科命題知能 研習分享.
司 法 考 试 题 2002年——2009年.
《审计专业相关知识》 考前点题班 张京.
2011年会计初级职称全国统考 初级会计实务 教案 主讲:高峰 2010年12月.
必修2 第一单元 古代中国经济的基本结构和特点
高职院校建设与发展的良好契机 —努力搞好人才培养工作水平评估工作
主办:泰兴市质量强市领导小组办公室 承办:泰 兴 市 市 场 监 督 管 理 局.
2013届高考复习方案(第一轮) 专题课件.
鲁班培训-培训类项目 一级建造师 二级建造师 监理工程师 安全工程师 造价工程师 物业工程师 造 价 员 职称英语
人生格言: 天道酬勤 学院:自动化与电气工程学院 班级: 自师1201 姓名:刘 威.
全国一级建造师执业资格考试 《建设工程法规及相关知识》 高 唱
行政诉讼法.
财产行为税 是以纳税人拥有的财产数量或财产价值为征税对象或为了实现某种特定的目的,以纳税人的某些特定行为为征税对象而开征的税种。包括房产税、城镇土地使用税、车船税、土地增值税、资源税、印花税、城市维护建设税、 契税、耕地占用税等九个税种。由于其税收收入基本上为地方政府财政收入,所以又称为地方税。 除财产行为税以外,还有流转税、所得税两大类税收。
第十六专题 近代以来世界的科学 技术和文学艺术
第二章 遺傳 2‧4 突變.
服务热线: 菏泽教师招聘考试统考Q群: 菏泽教师统考教育基础模拟题解析.
江苏省2008年普通高校 招生录取办法 常熟理工学院学生处
第 一 章 第一節 史前與夏商周三代的傳承.
第三单元 (P34) 近代西方资本主义政治制度的确立与发展 梅县松口中学 余谭制作.
新准则框架与首次执行 企业会计准则 主讲人:陈清宇.
BEIJING fireproof center
用问题激发学生的思维 \.
印 花 税.
专题4 地表变化及影响.
大数的认识 公顷和平方千米 角的度量、平行四边形和梯形 四年级上册 三位数乘两位数 除数是两位数的除法 统计.
岳阳市教学竞赛课件 勾股定理 授课者 赵真金.
财经法规与会计职业道德 (3) 四川财经职业学院.
第一篇:静力学 1 、研究的主要问题:力,力系的简化原理 及物体在力系作用下的平衡问题。 2 、研究方法:对物体(或物体系)进行受
(一) 第一单元 (45分钟 100分).
全国社会工作师培训之 社会工作综合能力(初级)
第一章 民法概述 一、民法概念 P4 二、民法的调整对象 三、民法的分类 四、民法的渊源 P10 五、民法的适用范围(效力范围)
财经法规与会计职业道德 (25) 四川财经职业学院.
第七章 财务报告 财务报告 第一节 财务报告概述 一、财务报告及其目标: 1、概念:财务报告是指企业对外提供的反映企业某一特定日期
统计法基础知识 主讲:胡燕 二0一五年八月.
第十二单元 第28讲 第28讲 古代中国的科技和文艺   知识诠释  思维发散.
发展心理学 王 荣 山.
2017年9月10日星期日.
第十课 创新意识与社会进步 1.辩证的否定观:辩证否定、形而上学的否定观
《统计学原理》第一章习题 一.判断题部分 1 :社会经济统计的研究对象是社会经济现 象总体的各个方面。(× )
勾股定理 说课人:钱丹.
江苏省2009年普通高校 招生录取办法 江苏省教育考试院
政治第二轮专题复习专题七 辩 证 法.
第二章 负债 1、负债的概念:是指过去的交易或事项形成的、预 期会导致经济利益流出企业的现时义务。 2、负债的分类 流动负债 短期借款
第四章第一节 增值税法律制度2 主讲老师:梁天 经济法基础.
第一章 直线和平面 两个平面垂直的判定和性质(二)
第11章 三角形.
人教版数学四年级(下) 乘法分配律 单击页面即可演示.
4.8 平行线 海南华侨中学 王应寿.
八年级上册 第十一章 三角形 三角形的内角(第1课时) 湖北省咸宁市咸安区教育局教研室 王格林.
乘法公式 (1) 乘法分配律 (2) 和的平方公式 (3) 差的平方公式 (4) 平方差公式.
等腰三角形的判定.
经济法基础习题课 主讲:赵钢.
2.3.1 直线与平面垂直的判定 金 雪 花 数学组.
会计基础 第二章 会计要素与会计等式 刘颖
八年级 上册 第十一章 三角形 三角形的边 咸宁市咸安区教育局教研室 王格林.
Welcome 实验:筷子提米.
第一部分 数字电路 第4章 组合逻辑电路 主讲教师:喻红.
11.2三角形全等的条件⑶.
孟 胜 奇.
1.2 子集、补集、全集习题课.
数学人教A必修2·第二章点、直线、平面之间的位置关系
7.1.1 三角形的边 初一数学  备课组.
2015中考第一轮复习 确定圆的条件.
Ch3-聲波 § 3-1 聲波的傳遞 § 3-2 聲波的駐波 § 3-3 聲音的共鳴 § 3-4 都卜勒效應 § 3-4 音爆.
數線上兩點的距離.
坚持,努力,机会留给有准备的人 第一章 四大金融资产总结 主讲老师:陈嫣.
美丽的旋转.
§12-5 同方向同频率两个简谐振动的合成 一. 同方向同频率的简谐振动的合成 1. 分振动 : 2. 合振动 : 解析法
相关知识回顾 1.垂线的定义: 2.线段中点的定义: 3.角的平分线的定义:
Presentation transcript:

第二章 关联规则 Association rules

主要内容 1 关联规则概述 2 关联规则有关概念 3 关联规则算法: AIS算法和Apriori 算法

第一部分:关联分析概述 1、关联规则的基本含义 2、关联规则分类 3、应用举例

什么是关联关系 关联关系:两个变量之间存在着一定的联系,比如因果关系或者时序关系。 比如: 购买面包的顾客90%也会购买牛奶; AT&T股票连续上涨两天而DEC股票不跌,则IBM上涨的可能性比较大(75%); 有太阳的时候基本上是晴天

关联规则的分类 1、根据变量类型:布尔型关联规则和数值型关联规则 布尔型关联规则:变量类型都是离散的 数值型关联规则:存在变量类型是连续的

思考:下面的数据类型是什么?

思考:下面的规则是布尔型还是数值型 1、做地产行业的财富榜排名前10的可能性比较大 2、地产开发商容易身价在300亿以上 3、年龄小于40的难以跻身财富榜前十

2、单层关联规则和多层关联规则 根据抽象层次来判断 尿布啤酒 优乐牌尿布青岛啤酒 {衣服,鞋子} {外套、运动鞋} {夹克、长靴}

3、单维规则与多维规则 单维规则:涉及一个属性 多维规则:涉及多个属性 啤酒尿布 地产开发商容易身价在300亿以上

应用举例(一) 零售业:安排商品布局,提供购买建议 已知:物品A和物品B经常出现在同一笔交易中,你会考虑怎么做?

应用举例(二) 市场营销:分析顾客的购买行为和习惯 年龄大于40岁,在某工业区的投保人有近一半曾经向保险公司索赔 原因是该地区污染比较严重

应用举例(三) 识别欺诈,发现异常事件 保险公司分析客户的保险申请,发现某客户有不寻常的多项保险申请。

应用举例(四) 英特网:提高网络相应速度 发现用户浏览网页时,会按顺序浏览一批网站,这时候在打开第一个网页时,将后面的网页更新缓存中

项集、k阶项集、事务集、支持度、支持数、大项集 第二部分:关联规则的有关概念 交易 商品 A 薯片, 沙司, 曲奇, 饼干, 可乐, 啤酒 B 生菜, 菠菜, 桔子, 芹菜, 苹果, 葡萄 C 薯片,沙司, 披萨, 蛋糕 D 生菜,菠菜, 牛奶, 黄油 项集、k阶项集、事务集、支持度、支持数、大项集

全体数据项集合I {薯片, 沙司, 曲奇, 饼干, 可乐, 啤酒,生菜, 菠菜, 桔子, 芹菜, 苹果, 葡萄,披萨, 蛋糕, 牛奶, 黄油} 项集:I的子集 如:{沙司、曲奇} K阶项集:长度为k的项集 事务集:一笔交易即为一个事务集

项集的支持数 某项集在事务集中出现的次数 项集的支持度 支持数/交易数 大项集 支持数大于最小支持数的项集;或支持度大于最小支持度的项集

思考:填写下面的表格 是否项集 阶数 支持数 支持度 是否大项集 {薯片、啤酒} {生菜、菠菜} {薯片、沙司} {薯片、生菜} {薯片} {生菜} {面包} 备注:假设最小支持数设为2

小结 关联规则 若某项集A是大项集,则认为项集A内的数据项存在关联关系 关联规则算法 寻找到大项集的算法

第三部分:布尔型关联规则挖掘算法 AIS算法 Apriori算法 其它改进算法

关联规则算法引入 穷举法: 由于可以得到全体数据项集合I 求出所有数据项集合I的子集的支持数,则可以得到大项集 假设I的阶数为k,则I的非空子集为2k-1 假设事务数为n,则穷举法的时间复杂度为 n*(2k-1) 穷举法需要花费的时间太多,所有的挖掘算法就是通过减少搜索的内容以所见查询时间

关联规则算法1-AIS算法 地位:第一个关联规则挖掘算法 核心思想:大项集必然是在一笔交易中出现的——减少候选项集 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 项集 支持数 A 2 B 4 C D 1 E 3 项集 支持数 A 2 B 4 C D 1 E 3 大项集 支持数 B 4 C E 3 项集 支持数 AC 2 CD 1 BC 3 CE BE AB AE 项集 支持数 BC 3 BE 项集 支持数 BCE 2 ABC 1 ABE

思考 假设上例中,最小支持数为4,那利用AIS算法的过程?

关联规则算法1-Apriori算法 基于一个推论: 如果一个项集是大项集,那么它的所有子集都是大项集。反之,如果一个项集的某个子集不是大项集,则这个项集也不是大项集。

TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 项集 支持数 A 2 B 4 C D 1 E 3 大项集 支持数 B 4 C E 3 项集 支持数 BC 3 BE CE 2 项集 支持数 BC 3 BE 项集 支持数 BCE 2

思考 1、与AIS算法作比较 2、假设上例中,最小支持数为4,那利用Apriori算法的过程?

例题 假设2阶大项集为{AB,AC,AE,BC,BE},利用Apriori算法的思想,构造3阶候选集 AB+ACABC AB+AEABE AB+BC ABC AB+BE ABE AC+AE ACE AC+BC ABC AC+BE ABCE AE+BC ABCE AE+BE ABE BC+BE BCE 3阶候选集是{ABC,ABE,ACE,BCE}

错了,3阶候选集应该是{ABC,ABE} 为什么? 问: ABCE 在不在4阶候选集中?

Apriori的算法改进 1、减少扫描事务量:如果某事务不包含k阶大项集,则必然不包含k+1阶大项集 ——AproriTid算法

TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 6 F TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC TID 项集 2 BCE 3 ABCE 4 BE 5 BC 项集 支持数 A 2 B 4 C D 1 E 3 F 项集 支持数 BC 3 BE CE 2 项集 支持数 BCE 2 大项集 支持数 B 4 C E 3 项集 支持数 BC 3 BE

例题 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 6 F 7 GH 8 BCG

2、减少扫描次数,采用分而治之的方法 将一个事务集分解为若干个部分,整体的大项集必然至少是某一个子集的大项集。 假如在所有子集中都是大项集的肯定是大项集

1阶A B C E 2阶AC BC BE CE 3阶BCE 1阶B C E 2阶 BC BE 最小支持数为0.4*3=1.2 TID 项集 1 ACD 2 BCE 3 ABCE 最小支持数为0.4*3=1.2 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 1阶A B C E 2阶AC BC BE CE 3阶BCE TID 项集 4 BE 5 BC 最小支持数为0.4*2=0.8 1阶B C E 2阶 BC BE 最小支持数为2,支持度为0.4

共有的:B、C、E、BC、BE 特有的:A {2}、AC{2}、BCE{2} 都是大项集?

思考 上例中,假如最小支持数是3,结果如何

小结:关联规则算法的手段 1、减少交易集 2、减少候选项集 3、分组

项集的整合

多属性关联规则的挖掘算法

多属性 扩展/最小扩展 B=A1∪A2 ∪A3,C= A1∪A2,A1 B是A1的扩展,B是C的扩展,C是A1的扩展 B是C的最小扩展,C是A1的最小扩展,但B不是A1的最小扩展

支持度 期望支持度 项集{A3 ∪A4,A5,A9 }的支持度? 规则 A3 ∪A4 {A5,A9}的支持度? 规则A3 ∪A4 {A5,A9} 是规则A3 {A5,A9}的扩展,则规则A3 {A5,A9}的期望支持度是多少? 根据期望支持度和实际支持度,判断一个规则是否有用

置信度 期望置信度 规则 A3 ∪A4 {A5UA6,A9}的置信度? 规则A3 ∪A4 {A5UA6,A9}是规则A3 ∪A4 {A5,A9}的扩展 A3 ∪A4 {A5,A9}的期望置信度

大家思考一下,这张表如何分析