数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 复旦大学 (国际)数据库研究中心

Slides:



Advertisements
Similar presentations
第十一课 公正处理民事关系. 听歌曲《我想有个家》,阅读结婚誓词,回答 : 如何才能拥有一个幸福、温馨的家庭? 导 入 导 入 探究活动一:幸福、温馨家庭的讨论 亲情和爱情的精心维护 法律的有力保护 品味 与 感悟 家庭是父亲 的王国,母 亲的世界, 儿童的乐园 。 —— 爱默生.
Advertisements

南通大学江海书画社.
第五章 企业所得税、个人所得税.
房地产管理基本制度与政策.
《审计专业相关知识》 考前点题班 张京.
2011年会计初级职称全国统考 初级会计实务 教案 主讲:高峰 2010年12月.
人口与环境 邯郸市第一中学 王贺渠 2015年4月2日.
财经法规与会计职业道德 Company Logo.
第一章 专利的种类 一、发明专利 20年 二、实用新型专利 10年 三、外观设计专利 10年
3.2 农业区位因素与农业地域类型.
第二章 处方.
鲁班培训-培训类项目 一级建造师 二级建造师 监理工程师 安全工程师 造价工程师 物业工程师 造 价 员 职称英语
第2讲 中国的文学、艺术、教育 与19世纪以来的世界文艺.
97年度推展精進教師課堂教學能力計畫 基測命題趨勢分析與改進教學實務 五權國中謝惠萍.
财产行为税 是以纳税人拥有的财产数量或财产价值为征税对象或为了实现某种特定的目的,以纳税人的某些特定行为为征税对象而开征的税种。包括房产税、城镇土地使用税、车船税、土地增值税、资源税、印花税、城市维护建设税、 契税、耕地占用税等九个税种。由于其税收收入基本上为地方政府财政收入,所以又称为地方税。 除财产行为税以外,还有流转税、所得税两大类税收。
第八章 建设有中国特色的社会主义政治.
文化在继承中发展.
文化在继承中发展.
第六章 其他税收法律制度.
服务热线: 菏泽教师招聘考试统考Q群: 菏泽教师统考教育基础模拟题解析.
《山西省2008年初中数学学业考试说明》解读及复习建议
Some Knowledge of Machine Learning(1)
第二单元 生产、劳动与经营.
山东经贸职业学院 精品课程 房地产开发经营与管理.
2011年江苏省造价员资格考试(南通)考前培训班基础理论部分
新准则框架与首次执行 企业会计准则 主讲人:陈清宇.
情緒與壓力管理─背部舒緩 指導老師:彭易璟 第六組組員:會資三乙 499A0047 謝宛霖 會資三乙 499A0019 吳汶諭
药学综合知识与技能.
实现人生的华丽转身 —2014年高速公路考试备考指导 中公教育陈修晓.
1.中国古代农业 (1)古代农业耕作方式从刀耕火种到铁犁牛耕的演变。 (2)古代农具的发明、改进,水利工程建设;农作物的培植、引进和推广所涉及的精耕细作的农业生产方式。 (3)小农经济的形成、特点及评价。 (4)古代土地制度从原始社会土地公有制到封建社会的土地私有制。 (5)古代重农政策及以农立国的思想。
初级会计实务 第十章 事业单位会计基础 主讲人:杨菠.
频繁模式与关联规则挖掘 林琛 博士、副教授.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
关联.
第十七章 会计政策、会计估计变更和差错更正
企业所得税.
第七课 关注经济发展 造福人民的经济制度 授课教师 张爱岭 辉县市第一初级中学 政治教研组 2013年11月27日.
安全系着你我他 安全教育知识竞赛.
二、选择题 (一)A1型题 1. 四君子汤的功用是 : A.益气健脾 B.益气补中 C.健脾养胃 D. 健脾和胃 E.益气和胃 回答正确,
全国社会工作师培训之 社会工作综合能力(初级)
第一章 民法概述 一、民法概念 P4 二、民法的调整对象 三、民法的分类 四、民法的渊源 P10 五、民法的适用范围(效力范围)
刑法分论5-2 周铭川.
第七章 财务报告 财务报告 第一节 财务报告概述 一、财务报告及其目标: 1、概念:财务报告是指企业对外提供的反映企业某一特定日期
统计法基础知识 主讲:胡燕 二0一五年八月.
线索一 线索二 复习线索 专题五 线索三 模块二 第二部分 考点一 高考考点 考点二 考点三 配套课时检测.
  選擇題 命題注意事項 國立台南大學數學教育系 謝 堅.
《做自立自强的人》单元复习.
《统计学原理》第一章习题 一.判断题部分 1 :社会经济统计的研究对象是社会经济现 象总体的各个方面。(× )
穿脱隔离衣 解放军三零二医院 秦玉玲 急 诊.
项目经理继续教育复习资料 节日PPT模板: PPT素材下载:
第三章 关联规则挖掘 Association Rule Mining
经济法基础习题课 第7讲 主讲老师:赵钢.
Chap 3 堆疊與佇列 Stack and Queue.
第8章 關聯分析 王海.
习题——管理信息的收集与处理 授课老师:sunny.
基于类关联规则的分类 Classification Based on Class-Association Rules
课 堂 练 习.
圓心角及圓周角 (題型解析) 顧震宇 台灣數位學習科技股份有限公司 這個單元老師講解變數與函數的題型解析,
「基本學力測驗」與「學科 能力測驗」國文試題評析
经济法基础习题课 主讲:赵钢.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
会计基础 第二章 会计要素与会计等式 刘颖
Amortized Analysis Michael Tsai 2013/11/14.
資料庫系統實驗室 指導教授:張玉盈.
基础会计.
静定结构位移计算 ——互等定理 主讲教师:戴萍.
11 檢視表的建立 11-1 檢視表的基礎 11-2 建立檢視表 11-3 修改與刪除檢視表 11-4 編輯檢視表的內容.
中级会计实务 ——第一章 总论 主讲:孙文静
商業智慧實務 Practices of Business Intelligence
匀变速直线运动2.
Presentation transcript:

数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 xiaohui@fudan.edu 复旦大学 (国际)数据库研究中心 2001-11-6 数据挖掘:概念和技术

第6章:从大数据库中挖掘关联规则 关联规则挖掘 从交易数据库中挖掘一维的布尔形关联规则 从交易数据库中挖掘多层次关联规则 在交易数据库和数据仓库中挖掘多维关联规则 从关联挖掘到相关性分析 基于约束的关联挖掘 小结 2001-11-6 数据挖掘:概念和技术

什么是关联挖掘? 关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 应用: 购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。 举例: 规则形式: “Body ® Head [support, confidence]”. buys(x, “diapers”) ® buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) ® grade(x, “A”) [1%, 75%] 2001-11-6 数据挖掘:概念和技术

关联规则:基本概念 给定: (1)交易数据库 (2)每笔交易是:一个项目列表 (消费者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 E.g., 98% of people who purchase tires and auto accessories also get automotive services done 应用 *  护理用品 (商店应该怎样提高护理用品的销售?) 家用电器  * (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄 Detecting “ping-pong”ing of patients, faulty “collisions” 2001-11-6 数据挖掘:概念和技术

规则度量:支持度与可信度 查找所有的规则 X & Y  Z 具有最小支持度和可信度 二者都买的客户 买尿布的客户 查找所有的规则 X & Y  Z 具有最小支持度和可信度 支持度, s, 一次交易中包含{X 、 Y 、 Z}的可能性 可信度, c, 包含{X 、 Y}的交易中也包含Z的条件概率 买啤酒的客户 设最小支持度为50%, 最小可信度为 50%, 则可得到 A  C (50%, 66.6%) C  A (50%, 100%) 2001-11-6 数据挖掘:概念和技术

关联规则挖掘:路线图 布尔 vs. 定量 关联 (基于 处理数据的类型) buys(x, “SQLServer”) ^ buys(x, “DMBook”) ® buys(x, “DBMiner”) [0.2%, 60%] age(x, “30..39”) ^ income(x, “42..48K”) ® buys(x, “PC”) [1%, 75%] 单维 vs. 多维 关联 (例子同上) 单层 vs. 多层 分析 那个品种牌子的啤酒与那个牌子的尿布有关系? 各种扩展 相关性、因果分析 关联并不一定意味着相关或因果 最大模式和闭合相集 添加约束 如, 哪些“小东西”的销售促发了“大家伙”的买卖? 2001-11-6 数据挖掘:概念和技术

第6章:从大数据库中挖掘关联规则 关联规则挖掘 从交易数据库中挖掘一维的布尔形关联规则 从交易数据库中挖掘多层次关联规则 在交易数据库和数据仓库中挖掘多维关联规则 从关联挖掘到相关性分析 基于约束的关联挖掘 小结 2001-11-6 数据挖掘:概念和技术

关联规则挖掘—一个例子 最小值尺度 50% 最小可信度 50% 对于 A  C: support = support({A 、C}) = 50% confidence = support({A 、C})/support({A}) = 66.6% Apriori的基本思想: 频繁项集的任何子集也一定是频繁的 2001-11-6 数据挖掘:概念和技术

关键步骤:挖掘频繁集 频繁集:是指满足最小支持度的项目集合 频繁集的子集也一定是频繁的 从1到k(k-频繁集)递归查找频繁集 如, 如果{AB} 是频繁集,则 {A} {B} 也一定是频繁集 从1到k(k-频繁集)递归查找频繁集 用得到的频繁集生成关联规则 2001-11-6 数据挖掘:概念和技术

Apriori算法 连接: 用 Lk-1自连接得到Ck 修剪: 一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。 伪代码: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; 2001-11-6 数据挖掘:概念和技术

Apriori算法 — 例子 数据库 D L1 C1 扫描 D C2 C2 L2 扫描 D C3 L3 扫描 D 2001-11-6 数据挖掘:概念和技术

如何生成候选集 假定 Lk-1 中的项按顺序排列 第一步: 自连接 Lk-1 第二步: 修剪 insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1 第二步: 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck 2001-11-6 数据挖掘:概念和技术

如何计算候选集的支持度 计算支持度为什么会成为一个问题? 候选集的个数非常巨大 一笔交易可能包含多个候选集 方法: 用 hash-tree 存放候选集 树的叶子节点 of存放项集的列表和支持度 内部节点 是一个hash表 Subset 函数: 找到包含在一笔交易中的所有候选集 2001-11-6 数据挖掘:概念和技术

生成候选集的例子 L3={abc, abd, acd, ace, bcd} 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪: ade 不在 L3中,删除 acde C4={abcd} 2001-11-6 数据挖掘:概念和技术

提高Apriori效率的方法 基于Hash的项集计数: 如果一个 k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。 减少交易记录: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集 分割: 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。 采样: 在给定数据的子集上挖掘,使用小的支持度+完整性验证方法 动态项集计数: 在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。 2001-11-6 数据挖掘:概念和技术

Apriori 够快了吗? — 性能瓶颈 Apriori算法的核心: Apriori 的瓶颈: 候选集生成 巨大的候选集: 多次扫描数据库: 用频繁的(k – 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 {a1, a2, …, a100}, 你必须先产生2100  1030 个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描 2001-11-6 数据挖掘:概念和技术

挖掘频繁集 不用生成候选集 用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩,同时对频繁集的挖掘又完备的 避免代价较高的数据库扫描 开发一种高效的基于FP-tree的频繁集挖掘算法 采用分而治之的方法学:分解数据挖掘任务为小任务 避免生成关联规则: 只使用部分数据库! 2001-11-6 数据挖掘:概念和技术

用交易数据库建立 FP-tree TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 最小支持度 = 0.5 {} f:4 c:1 b:1 p:1 c:3 a:3 m:2 p:2 m:1 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 步骤: 扫描数据库一次,得到频繁1-项集 把项按支持度递减排序 再一次扫描数据库,建立FP-tree 2001-11-6 数据挖掘:概念和技术

FP-tree 结构的好处 完备: 不会打破交易中的任何模式 包含了序列模式挖掘所需的全部信息 紧密 去除不相关信息—不包含非频繁项 决不会比原数据库大(如果不计算树节点的额外开销) 例子: 对于 Connect-4 数据库,压缩率超过 100 2001-11-6 数据挖掘:概念和技术

用 FP-tree挖掘频繁集 基本思想 (分而治之) 用FP-tree地归增长频繁集 方法 2001-11-6 数据挖掘:概念和技术

挖掘 FP-tree的主要步骤 为FP-tree中的每个节点生成条件模式库 用条件模式库构造对应的条件FP-tree 递归构造条件 FP-trees 同时增长其包含的频繁集 如果条件FP-tree直包含一个路径,则直接生成所包含的频繁集。 2001-11-6 数据挖掘:概念和技术

步骤1: 从 FP-tree 到条件模式库 从FP-tree的头表开始 按照每个频繁项的连接遍历 FP-tree 列出能够到达此项的所有前缀路径,得到条件模式库 {} f:4 c:1 b:1 p:1 c:3 a:3 m:2 p:2 m:1 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 条件模式库 item cond. pattern base c f:3 a fc:3 b fca:1, f:1, c:1 m fca:2, fcab:1 p fcam:2, cb:1 2001-11-6 数据挖掘:概念和技术

FP-tree支持条件模式库构造的属性 节点裢接 任何包含ai, 的可能频繁集,都可以从FP-tree头表中的ai沿着ai 的节点链接得到 前缀路径 要计算路径P 中包含节点ai 的频繁集,只要考察到达ai 的路径前缀即可,且其支持度等于节点ai 的支持度 2001-11-6 数据挖掘:概念和技术

步骤2: 建立条件 FP-tree 对每个模式库 计算库中每个项的支持度 用模式库中的频繁项建立FP-tree   {} 头表 m-条件模是库: fca:2, fcab:1 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 f:4 c:1 All frequent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam {} f:3 c:3 a:3 m-conditional FP-tree c:3 b:1 b:1   a:3 p:1 m:2 b:1 p:2 m:1 2001-11-6 数据挖掘:概念和技术

通过建立条件模式库得到频繁集 Empty f {(f:3)}|c {(f:3)} c {(f:3, c:3)}|a {(fc:3)} a b {(f:3, c:3, a:3)}|m {(fca:2), (fcab:1)} m {(c:3)}|p {(fcam:2), (cb:1)} p 条件FP-tree 条件模式库 项 2001-11-6 数据挖掘:概念和技术

第3步: 递归挖掘条件FP-tree {} f:3 {} c:3 f:3 c:3 {} a:3 f:3 {} f:3 am-条件 FP-tree {} f:3 c:3 a:3 m-条件 FP-tree “am”的条件模式库: (fc:3) {} f:3 “cm”的条件模式: (f:3) cm-条件 FP-tree {} f:3 “cam”条件模式库: (f:3) cam-条件 FP-tree 2001-11-6 数据挖掘:概念和技术

+ 特例: FP-tree 中的唯一前缀路径 用一个节点代替此前缀路径P 分别计算这两个部分的结果 = 假定一个 (条件) FP-tree T 又一个共享唯一前缀路径 P 挖掘可分解为如下两个步骤 用一个节点代替此前缀路径P 分别计算这两个部分的结果 a2:n2 a3:n3 a1:n1 {} b1:m1 C1:k1 C2:k2 C3:k3 b1:m1 C1:k1 C2:k2 C3:k3 r1 a2:n2 a3:n3 a1:n1 {} r1 = +  2001-11-6 数据挖掘:概念和技术

频繁集增长的原理 模式增长的特征 令  为DB的一个频繁集, B 为  的条件模式库,  是 B中的一个项,要使    是DB中的频繁集,当且仅当  是 B 的频繁项. “abcdef ” 是频繁集,当且仅当 “abcde ” 是频繁集, 且 “f ” 在包含 “abcde ”的事务中是频繁的。 2001-11-6 数据挖掘:概念和技术

为什么 频繁集增长 速度快? 我们的性能研究显示 FP-growth 比Apriori快一个数量级, 同样也比 tree-projection 快。 原因 不生成候选集,不用候选测试。 使用紧缩的数据结构 避免重复数据库扫描 基本操作是计数和建立 FP-tree 树 2001-11-6 数据挖掘:概念和技术

FP-growth vs. Apriori: 相对于支持度的扩展性 Data set T25I20D10K 2001-11-6 数据挖掘:概念和技术

FP-growth vs. Tree-Projection:相对于支持度的扩展性 Data set T25I20D100K 2001-11-6 数据挖掘:概念和技术

关联规则结果显示 (Table Form ) 2001-11-6 数据挖掘:概念和技术

关联规则可视化Using Plane Graph 2001-11-6 数据挖掘:概念和技术

关联规则可视化Using Rule Graph 2001-11-6 数据挖掘:概念和技术

冰山查询 冰山查询: 在一个或多个属性上做聚合,只有当聚合的值高于指定的值时才做计算 举例: 用Apriori提高 执行 冰山查询的效率 select P.custID, P.itemID, sum(P.qty) from purchase P group by P.custID, P.itemID having sum(P.qty) >= 10 用Apriori提高 执行 冰山查询的效率 先计算低维 只有当所有的低维都满足预制时才计算高维 2001-11-6 数据挖掘:概念和技术