关联.

Slides:



Advertisements
Similar presentations
第十一课 公正处理民事关系. 听歌曲《我想有个家》,阅读结婚誓词,回答 : 如何才能拥有一个幸福、温馨的家庭? 导 入 导 入 探究活动一:幸福、温馨家庭的讨论 亲情和爱情的精心维护 法律的有力保护 品味 与 感悟 家庭是父亲 的王国,母 亲的世界, 儿童的乐园 。 —— 爱默生.
Advertisements

     第八课 财政与税收      1.国家收入的分配:财政收入与支出;财政的作用 2.征税与纳税:税收及其种类;依法纳税.
1.4 蛋白质工程的崛起.
第五章 企业所得税、个人所得税.
房地产管理基本制度与政策.
2011年会计初级职称全国统考 初级会计实务 教案 主讲:高峰 2010年12月.
2016年浙江省衢州市 事业单位 综合基础知识 刘洁
人口与环境 邯郸市第一中学 王贺渠 2015年4月2日.
财经法规与会计职业道德 Company Logo.
第一章 专利的种类 一、发明专利 20年 二、实用新型专利 10年 三、外观设计专利 10年
鲁班培训-培训类项目 一级建造师 二级建造师 监理工程师 安全工程师 造价工程师 物业工程师 造 价 员 职称英语
第2讲 中国的文学、艺术、教育 与19世纪以来的世界文艺.
温故而知新: 我国的国家性质是什么? 人民民主专政的国体 国家的一切权利属于人民 决 定 我国政府是人民的政府.
第七章 企业盈利能力分析 本章重点:   总资产收益率、净资产收益率、资本保值增值率、销售净利率、基本每股收益、每股股利、市盈率、股利支付率的概念计算以及分析评价。 难点: 总资产收益率、净资产收益率、每股收益的计算与应用;对影响盈利能力的其他因素的理解。
热点专题: “法轮功”问题.
行政诉讼法.
2013年初级会计实务 主讲: 冯毅 教授.
财产行为税 是以纳税人拥有的财产数量或财产价值为征税对象或为了实现某种特定的目的,以纳税人的某些特定行为为征税对象而开征的税种。包括房产税、城镇土地使用税、车船税、土地增值税、资源税、印花税、城市维护建设税、 契税、耕地占用税等九个税种。由于其税收收入基本上为地方政府财政收入,所以又称为地方税。 除财产行为税以外,还有流转税、所得税两大类税收。
第八章 建设有中国特色的社会主义政治.
文化在继承中发展.
文化在继承中发展.
服务热线: 菏泽教师招聘考试统考Q群: 菏泽教师统考教育基础模拟题解析.
职业教育课程改革创新教材 财经法规与会计职业道德.
Some Knowledge of Machine Learning(1)
第二单元 生产、劳动与经营.
会计从业资格 主讲:栗银芳.
报关与报检实务.
当我们深陷房价的困扰 食品安全却令人担忧.
药学综合知识与技能.
实现人生的华丽转身 —2014年高速公路考试备考指导 中公教育陈修晓.
1.中国古代农业 (1)古代农业耕作方式从刀耕火种到铁犁牛耕的演变。 (2)古代农具的发明、改进,水利工程建设;农作物的培植、引进和推广所涉及的精耕细作的农业生产方式。 (3)小农经济的形成、特点及评价。 (4)古代土地制度从原始社会土地公有制到封建社会的土地私有制。 (5)古代重农政策及以农立国的思想。
印 花 税.
50年代 吳瀛濤 都市 這是衣服多彩的油畫 一曲豪華的樂章 且是現代產業的基地 今日文化的中心 甚至是罪惡的窩巢 冒險的樂園
初级会计实务 第十章 事业单位会计基础 主讲人:杨菠.
第二章 股票.
频繁模式与关联规则挖掘 林琛 博士、副教授.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
第四章 开天辟地的大事变 新文化运动兴起的原因: 一、近代以来,中国先进分子不断向西方寻求真理
第四节 会计监督.
第二单元 动物生命活动的调节和免疫 高等动物的内分泌系统与体液调节.
第十七章 会计政策、会计估计变更和差错更正
企业所得税.
第七课 关注经济发展 造福人民的经济制度 授课教师 张爱岭 辉县市第一初级中学 政治教研组 2013年11月27日.
安全系着你我他 安全教育知识竞赛.
工程造价基础理论 第五章 试题示例 《建设工程施工合同(示范文本)》(GF—2013—0201)设立了迟延支付工程价款的赔偿制度,该制度中包括了通知、合理期限改正等程序性规定,最终仍不履约的,则按中国人民银行发布的同期同类贷款基准利率的( C )倍支付违约金。 A. 1 B.1.5.
全国社会工作师培训之 社会工作综合能力(初级)
第一章 民法概述 一、民法概念 P4 二、民法的调整对象 三、民法的分类 四、民法的渊源 P10 五、民法的适用范围(效力范围)
财经法规与会计职业道德 (25) 四川财经职业学院.
刑法分论5-2 周铭川.
第七章 财务报告 财务报告 第一节 财务报告概述 一、财务报告及其目标: 1、概念:财务报告是指企业对外提供的反映企业某一特定日期
线索一 线索二 复习线索 专题五 线索三 模块二 第二部分 考点一 高考考点 考点二 考点三 配套课时检测.
《做自立自强的人》单元复习.
第十章 行政事业单位会计.
2017年9月10日星期日.
珍爱生命.
政治第二轮专题复习专题七 辩 证 法.
数据仓库与数据挖掘 复习.
经济法基础习题课 第7讲 主讲老师:赵钢.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
第8章 關聯分析 王海.
啟示錄 人 子 七 教 會 寶 座 七 印 七 號 龍 與 獸 七 碗 巴 比 倫 千 禧 年 前 後 新 耶 路 撒 冷 第9章(第5號)
数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 复旦大学 (国际)数据库研究中心
基于类关联规则的分类 Classification Based on Class-Association Rules
五 初级阶段论.
经济法基础习题课 主讲:赵钢.
会计基础 第二章 会计要素与会计等式 刘颖
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
 第四章 消费税法律制度 经济法基础 模板来自于
中级会计实务 ——第一章 总论 主讲:孙文静
商業智慧實務 Practices of Business Intelligence
Presentation transcript:

关联

什么是频繁模式分析? 频繁模式: 在数据集中频繁出现的模式(项集, 子序列, 子结构等) 动机: 找出数据中的内在规律性 哪些产品经常被一起购买?— Beer and diapers?! 购买了PC之后下一个会买什么? 何种DNA对这个新药敏感? 能否自动分类web文档? 应用 购物篮分析, cross-marketing, 商品目录设计, 促销活动分析, Web日志(点击流)分析, DNA序列分析

基本概念: 频繁模式和关联规则 项集X = {x1, …, xk} 找出满足最小支持度和置信度的所有规则X  Y Transaction-id Items bought 10 A, B, D 20 A, C, D 30 A, D, E 40 B, E, F 50 B, C, D, E, F 项集X = {x1, …, xk} 找出满足最小支持度和置信度的所有规则X  Y 支持度 s, 一笔交易包含XY的概率 置信度 c, 一笔包含X的交易也包含Y的条件概率 买尿布的客户 两者都买的客户 买啤酒的客户 令 supmin = 50%, confmin = 50% 频繁模式: {A:3, B:3, D:4, E:3, AD:3} 关联规则: A  D (60%, 100%) D  A (60%, 75%)

频繁模式挖掘: 路线图(1) 基于挖掘的模式的完备性 频繁模式的完备集合 闭频繁项集 极大频繁项集 约束频繁项集 近似频繁项集 邻近匹配频繁项集 top-k 频繁项集 基于规则中涉及的抽象层次 单层关联规则 多层关联规则 基于规则中涉及的数据维数 单维关联规则 多维关联规则

频繁模式挖掘: 路线图(2) 基于规则处理的值的类型 布尔型关联规则 定量关联规则 基于挖掘的规则种类 关联规则 相关性规则 强梯度联系 基于挖掘的模式的种类 频繁项集挖掘 序列模式挖掘 结构模式挖掘

挖掘频繁模式的可扩展方法 频繁模式的向下封闭性质 频繁项集的任何子集必是频繁的 若{beer, diaper, nuts}是频繁的, 则{beer, diaper}也是 因为: 任何包含{beer, diaper, nuts}的交易也包含{beer, diaper} 可扩展挖掘方法: 三个主要方法 Apriori (Agrawal & Srikant@VLDB’94) 频繁模式增长(FPgrowth—Han, Pei & Yin @SIGMOD’00) 垂直数据格式方法(Charm—Zaki & Hsiao @SDM’02)

Apriori: 候选生成与检验方法 Apriori剪枝原则: 如果发现任何项集是非频繁的, 则其超集就不必生成/检验! 方法: 初始步, 扫描一次DB, 得到频繁1-项集 从长度为k的频繁项集生成长度为(k+1)的候选项集 在DB中检验候选项集 不能生成频繁或候选项集时终止

Apriori算法—一个例子 Supmin = 2 Database TDB L1 C1 1st scan C2 C2 L2 Itemset sup {A} 2 {B} 3 {C} {D} 1 {E} Database TDB Itemset sup {A} 2 {B} 3 {C} {E} L1 C1 Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E 1st scan C2 Itemset sup {A, B} 1 {A, C} 2 {A, E} {B, C} {B, E} 3 {C, E} C2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} L2 2nd scan Itemset sup {A, C} 2 {B, C} {B, E} 3 {C, E} C3 L3 Itemset {B, C, E} 3rd scan Itemset sup {B, C, E} 2

Apriori算法 伪代码: Ck : 大小为k 的候选项集 Lk :大小为k 的频繁项集 L1 = {频繁项(即频繁1-项集)}; for (k = 2; Lk-1 !=; k++) { Ck = 从Lk-1 生成的候选项集; for each 交易t do 将被t 包含的所有Ck 中候选项集的计数加1 Lk = Ck 中至少具有min_support的候选项集 } return k Lk

Apriori算法细节 如何生成候选项集Ck? Step 1: 自连接Lk-1 Step 2: 剪枝 如何计数候选项集的支持度?

如何生成候选项集Ck:Step-1 假设Lk-1 中的项有序排列 步骤-1:自连接 Lk-1 insert into Ck select p.item1 , p.item2 , …, p.itemk-1 , q.itemk-1 from Lk-1 as p, Lk-1 as q where p.item1=q.item1 and … and p.itemk-2=q.itemk-2 and p.itemk-1 < q.itemk-1

如何生成候选项集Ck:Step-2 步骤-2: 剪枝 for each c in Ck do for each (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck 12

例:候选项集生成 由:L3 = {abc, abd, acd, ace, bcd } Step-1:自连接L3*L3 abcd from abc 和abd acde from acd 和ace Step-2: 剪枝 由于ade 不在L3 中, acde 被删除 得:C4 = {abcd }

频繁模式挖掘中的挑战 挑战 多次扫描交易数据库 大量的候选项集,尤其是挖掘长模式(较大的k项集) 对候选项集支持度的计数带来冗长的工作负担 改进Apriori 减少扫描交易数据库的遍数 减少候选的个数 避免候选生成: FP-Growth 使候选支持度计数便利

挖掘各种关联规则 挖掘多层关联 挖掘多维关联 挖掘定量关联 挖掘有意义的相关模式

挖掘多层关联规则 项常常形成不同抽象层次 例如:牛奶;低脂牛奶,脱脂牛奶 较低层的项一般具有较低的支持度,因为数据稀疏 难以挖掘出有意义的关联规则 支持度设定 一致支持度 Milk [support = 10%] 2% Milk [support = 6%] Skim Milk [support = 4%] Level 1 min_sup = 5% Level 2 min_sup = 3% 递减支持度

多层关联: 冗余过滤 由于项间“祖先”联系的存在, 某些规则可能是冗余的. 例如 milk  wheat bread [support = 8%, confidence = 70%] 2% milk  wheat bread [support = 2%, confidence = 72%] 我们说第一条规则是第二条规则的祖先. 如果一条规则基于其祖先算出的支持度接近“期望”值, 则这条规则是冗余的.

挖掘多维关联 单维规则: 多维规则:  2 个维度或谓词 维间关联规则(没有重复的谓词) 混合维关联规则(有重复谓词) buys(X, “milk”)  buys(X, “bread”) 多维规则:  2 个维度或谓词 维间关联规则(没有重复的谓词) age(X,”19-25”)  occupation(X,“student”)  buys(X, “coke”) 混合维关联规则(有重复谓词) age(X,”19-25”)  buys(X, “popcorn”)  buys(X, “coke”) 类别值属性: 有限数目的可取值, 值间无序—数据立方体方法 定量属性: 数值型, 值间有隐含的序—离散化, 聚类, 梯度方法

挖掘定量关联 可以根据数值属性(如age或salary)是如何处理的来划分技术 基于预定义的概念层次(数据立方体方法)的静态离散化 基于数据分布的动态离散化(定量规则, e.g., Agrawal & Srikant@SIGMOD96) 聚类: 基于距离的关联(e.g., Yang & Miller@SIGMOD97) 一维聚类, 然后关联 偏差: (如Aumann and Lindell@KDD99) Sex = female => Wage: mean=$7/hr (overall mean = $9)

数量属性的静态离散化 利用概念层次在挖掘之前离散化 用范围替代数值 关系数据库中, 找出所有频繁k-谓词集需要k 或k+1次表扫描 数据立方体很适合挖掘 一个n-维方体的单元格对应于谓词集 从数据立方体挖掘可能快很多 (income) (age) () (buys) (age, income) (age,buys) (income,buys) (age,income,buys)

Data Mining: Concepts and Techniques 定量关联规则 由Lent, Swami and Widom ICDE’97提出 数值属性动态离散化 使得所挖掘的规则的可信度或紧凑度最大化 2-维定量关联规则: Aquan1  Aquan2  Acat 利用2-维网格聚类 “相邻”关联规则 以形成一般规则 例如: age(X,”34-35”)  income(X,”30-50K”)  buys(X,”high resolution TV”) Data Mining: Concepts and Techniques

规则是否有意义的度量: 相关性 度量独立性/相关性事件: lift 例1: (Aggarwal & Yu, PODS98) 在5000个学生中 3000 人早晨打篮球 3750 早餐吃麦片 2000 既打篮球又吃麦片 打篮球  吃麦片 [40%, 66.7%] 有点误导, 因为吃麦片学生的总比例为75%, 高于66.7%. 打篮球  不吃麦片 [20%, 33.3%] 更准确, 尽管具有较低支持度和可信度 度量独立性/相关性事件: lift Basketball Not basketball Sum (row) Cereal 2000 1750 3750 Not cereal 1000 250 1250 Sum(col.) 3000 5000

 (observed-expected)2/expected all_confidence 规则是否有意义的度量: 相关性 chi-square  (observed-expected)2/expected all_confidence all_conf(X) = sup(X)/max{sup(Xi)} cosine cosine(A,B) = P(AB)/sqrt(P(A)P(B)) 23