序列模式挖掘算法简介 报告人:邓爱林 2001-8-15.

Slides:



Advertisements
Similar presentations
莱西市实验中学 曹军娥 复习目标: 1. 掌握眼球的结构及各部分的功能 2. 理解并记住视觉的形成过程 3. 推断近视眼、远视眼的成因及矫正方法并注 意用眼卫生 4. 描述耳的结构及各部分的功能 5. 理解并记忆听觉形成的过程。 6. 说出导致耳聋的各种因素以及预防措施并注 意用耳卫生。
Advertisements

知道什么是遗传 能够分辨什么是相对性状 知道基因、 DNA 和染色体之间的关系 掌握基因的传递过程 课堂总结与课后延伸.
因果图. 因果图 因果图的适用范围 如果在测试时必须考虑输入条件的各种 组合,可使用一种适合于描述对于多种 条件的组合,相应产生多个动作的形式 来设计测试用例,这就需要利用因果图。 因果图方法最终生成的就是判定表。它 适合于检查程序输入条件的各种组合情 况。 因果图的适用范围 如果在测试时必须考虑输入条件的各种.
第七章 求职方法和技巧 (二) 主讲人:谭琳. 第一节 自荐 一、目前常见的自荐种类 1 .口头自荐 1 .口头自荐 2 .书面自荐 2 .书面自荐 3 .广告自荐 3 .广告自荐 4 .学校推荐 4 .学校推荐 5 .他人推荐 5 .他人推荐.
年輕駕駛交通工具 考上駕照的 18 歲, 正好是高中畢業, 離家工作、上大學 的時候。 年輕人對新環境的 好奇及生疏,以及 尚未養成良好駕駛 習慣,造成意外的 產生。
选修3 现代生物技术专题第三节 蛋白质工程.
必修2 第一单元 古代中国经济的基本结构和特点
《可能性大小》的教学比较 一、介绍两个版本的教材 · 北师大版(七上) 第7.1节 一定摸到地球吗 摸球游戏——体验事件发生的可能是有大小的
新約研讀 彼得前書複習 讀經組
受益權 自由權 參政權 納稅 平等權 其他基本權 服兵役 2-1人民基本權利 的種類 2-3憲法規定的 人民基本義務 受國民教育
人生格言: 天道酬勤 学院:自动化与电气工程学院 班级: 自师1201 姓名:刘 威.
全面推进基础教育综合改革 ——在基础教育综合改革推进暨“1751”工程总结会上的讲话
浙江省深化高校考试招生制度综合改革试点方案(2017新方案)
第五单元 社会生活的变迁 第1课时 衡量变化的尺子 ——— 时间和纪年 新围初中 王济洪.
歷史建築清水國小宿舍群修復工程 施工說明會
採購規範運用實務(含履約管理) 主講人:新北市政府採購處 勞務採購科 陳佑民.
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
第四讲 生物技术的安全性和伦理问题.
Some Knowledge of Machine Learning(1)
第三讲 行政许可的具体分类(一 ).
第2章 基因和染色体的关系 第1节 减数分裂和受精作用.
第一节: 食物中的营养物质.
《旅游文化》项目二 姓氏称谓避讳 宁波东钱湖旅游学校.
3.2 体外受精和早期胚胎培养.
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
摇摆的中东地区 永嘉县实验中学 张 杰.
摇摆的中东地区 永嘉县实验中学 张 杰.
消防安全知识 昆明市公安消防支队 盘龙区大队.
2011年高考复习数学考纲分析 克拉玛依市高级中学 冯祥杰.
杜甫诗三首 《望岳》 《春望》 《石壕吏》 授课人:姚晓霞.
中考阅读 复习备考交流 西安铁一中分校 向连吾.
高考新改革与过渡 怀化市铁路第一中学 向重新.
老年性皮肤瘙痒的防治.
2014一轮复习 生物试题的选编与使用研究 胶州市第三中学 孙方磊.
税收理论与实务 第六章 个人所得税.
频繁模式与关联规则挖掘 林琛 博士、副教授.
岳阳市教学竞赛课件 勾股定理 授课者 赵真金.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
关联.
推行使用散装预拌砂浆 全面贯彻落实禁现政策
中央广播电视大学开放教育 成本会计(补修)期末复习
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
第三单元 发展社会主义民主政治.
3.3 资源的跨区域调配 ——以南水北调为例 铜山中学 李启强.
初三历史复习课 八上第一单元 侵略与反抗 草桥实验中学 朱萍.
专题二 识图题增分技巧.
新学考与选考背景下 细胞分裂专题解读之一、二、三、四、五 岱山中学 张海楠.
上海交通大学 概率论第一、二章测验题 大学数学教研室 童品苗.
中考语文积累 永宁县教研室 步正军 2015.9.
新北市政府所屬各機關辦理採購規範 主講人:新北市政府採購處 李佳航、黃建中、陳佑民.
小学数学知识讲座 应用题.
勾股定理 说课人:钱丹.
倒装句之其他句式.
江苏省2009年普通高校 招生录取办法 江苏省教育考试院
杜甫诗三首 《望岳》 《春望》 《石壕吏》.
Advanced Topics in Data Mining: Sequential Patterns
第 22 课 孙中山的民主追求 1 .近代变法救国主张的失败教训: “师夷之长技以制 夷”“中体西用”、兴办洋务、变法维新等的失败,使孙中山
房地产业营改增税制变革 知 识 讲 座 二0一五年四月二十日.
第8章 關聯分析 王海.
人教版数学四年级(下) 乘法分配律 单击页面即可演示.
基于类关联规则的分类 Classification Based on Class-Association Rules
课 堂 练 习.
负数.
熔化和凝固.
藝術大師-達利.
第一部分 数字电路 第4章 组合逻辑电路 主讲教师:喻红.
數學遊戲二 大象轉彎.
美丽的旋转.
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Presentation transcript:

序列模式挖掘算法简介 报告人:邓爱林 2001-8-15

报告的主要内容 序列模式简介 GSP算法 PrefixSpan算法 2001-8-15

一、序列模式简介 序列模式的概念最早是由Agrawal和Srikant 提出的 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 2001-8-15

一、序列模式简介 例子1:在两年前购买了Ford 牌轿车的顾客,很有可能在今年采取贴旧换新的购车行动 例子2:在购买了自行车和购物篮的所有客户中,有70%的客户会在两个月后购买打气筒 2001-8-15

一、序列模式简介 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 2001-8-15

一、序列模式简介 符号化表示: 项目集(Itemset)是各种项目组成的集合 序列(Sequence)是不同项目集(ItemSet)的有序排列,序列s可以表示为s = <s1s2…sl>,sj(1 <= j <= l)为项目集(Itemset),也称为序列s的元素 序列的元素(Element)可表示为(x1x2…xm), xk(1 <= k <= m)为不同的项目,如果一个序列只有一个项目,则括号可以省略 一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列 2001-8-15

一、序列模式简介 符号化表示: 设 = <a1a2…an>, = <b1b2…bm>,如果存在整数1 <= j1 < j2 <…< jn <= m,使得a1  bj1,a2  bj2,…, an  bjn,则称序列为序列的子序列,又称序列包含序列,记为   序列在序列数据库S中的支持数为序列数据库S中包含序列的序列个数,记为Support() 给定支持度阈值,如果序列在序列数据库中的支持数不低于,则称序列为序列模式 长度为l的序列模式记为l-模式 2001-8-15

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> 一、序列模式简介 例子:设序列数据库如下图所示,并设用户指定的最小支持度min-support = 2。 Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列 序列<(ab)c>是长度为3的序列模式 2001-8-15

一、序列模式简介 问题描述:给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 系统规定:由于同一个元素中的项目之间排列没有顺序,为了表达的唯一性,我们将同一个元素内部的不同项目按照字典顺序排列 2001-8-15

一、序列模式简介 序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:类似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行序列模式挖掘 2001-8-15

一、序列模式简介 上述算法存在的主要问题: 缺少时间限制:用户可能需要指定序列模式的相邻元素之间的时间间隔。例如,一个序列模式可能会发现客户在购买了物品A后的第三年购买物品B。我们需要的却是给定时间间隔内用户的购买意向 事务的定义过于严格:一个事务中包含在客户的一次购买行为中所购买的所有物品。可能需要指定一个滑动时间窗口,客户在滑动时间窗口的时间段内的所有的购买行为均作为一个事务 缺少分类层次:只能在项目的原始级别上进行挖掘 2001-8-15

二、GSP算法 L1 C2  L2  C3  L3  C4  L4  …… GSP算法描述: 根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持数,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集 重复第二步,直到没有新的序列模式或新的候选序列模式产生为止 L1 C2  L2  C3  L3  C4  L4  …… 2001-8-15

二、GSP算法 产生候选序列模式主要分两步: 连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1于s2进行连接,即将s2的最后一个项目添加到s1中 剪切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除 L1 C2  L2  C3  L3  C4  L4  …… 2001-8-15

二、GSP算法 例子:下图演示了如何从长度为3的序列模式产生长度为4的候选序列模式 Sequential patterns With length 3 Candidate 4-Sequences After Join After Pruning <(1,2) 3> <(1,2) (3,4)> <(1,2) 4> <(1,2) 3 5> <1 (3,4)> <(1,3) 5> <2 (3,4)> <2 3 5> 2001-8-15

二、GSP算法 候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列d,找出集合C中被d所包含的所有候选序列模式,并增加其支持度计数 L1 C2  L2  C3  L3  …… 2001-8-15

二、GSP算法 GSP算法存在的主要问题: 如果序列数据库的规模比较大,则有可能会产生大量的候选序列模式 需要对序列数据库进行循环扫描 对于序列模式的长度比较长的情况,由于其对应的短的序列模式规模太大,本算法很难处理 2001-8-15

三、PrefixSpan算法 相关定义 前缀:设每个元素中的所有项目按照字典序排列。给定序列 = <e1e2…en>, = <e1’ e2’… em’>(mn) ,如果ei’ = ei (i  m - 1), em’  em,并且(em - em’)中的项目均在em’中项目的后面, 则称是的前缀 投影:给定序列和 ,如果是的子序列,则关于的投影’必须满足: 是’的前缀,’是的满足上述条件的最大子序列 后缀: 序列关于子序列 = <e1e2… em-1em’>的投影为’ = <e1e2… en> (n >= m),则序列关于子序列的后缀为<em”em+1… en>, 其中em” = (em - em’) 2001-8-15

三、PrefixSpan算法 例子: <a(abc)(ac)d(cf)> <a> 2001-8-15

三、PrefixSpan算法 算法描述: 扫描序列数据库,生成所有长度为1的序列模式 根据长度为1的序列模式,生成相应的投影数据库 在相应的投影数据库上重复上述步骤,直到在相应的投影数据库上不能产生长度为1的序列模式为止 S11 …… … S1 … S S1n …… Sm Sm1 …… … 2001-8-15 Smp ……

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> 三、PrefixSpan算法 扫描序列数据库S,产生长度为1的序列模式有:<a> : 4, <b>:4, <c> : 4, <d> : 3, <e> : 3, <f> : 3 序列模式的全集必然可以分为分别以<a>,<b>,<c>,<d>,<e>和<f>为前缀的序列模式的集合,构造不同前缀所对应的投影数据库,结果如下页图所示 分别对不同的投影数据库重复上述过程,直到没有新的长度为1的序列模式产生为止 Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 2001-8-15

三、PrefixSpan算法 Prefix Project Database <a> <(abc)(ac)d(cf)> <(_d)c(bc)(ae)> <(_b)(df)cb> <(_f)cbc> <b> <(_c)(ac)d(cf)> <(_c)(ae)> <(df)cb> <c> <c> <(ac)d(cf)> <(bc)(ae)> <b> <bc> <d> <(cf)> <c(bc)(ae)> <(_f)cb> <e> <(_f)(ab)(df)cb> <(af)cbc> <f> <(ab)(df)cb> <cbc> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 2001-8-15

三、PrefixSpan算法 定义1. 投影数据库:设为序列数据库S中的一个序列模式,则的投影数据库为S中所有以为前缀的序列相对于的后缀,记为S| 定义2. 投影数据库中的支持数:设为序列数据库S中的一个序列模式,序列以为前缀,则在的投影数据库S|中的支持数为S|中满足条件  .的序列的个数 2001-8-15

三、PrefixSpan算法 PrefixSpan算法 输入:序列数据库S及最小支持度阈值min_sup 输出:所有的序列模式 2001-8-15

三、PrefixSpan算法 子程序PrefixSpan(, L, S|) 参数: . 一个序列模式 L. 序列模式的长度 S| . 如果为空,则为S,否则为的投影数据库 扫描S|,找到满足下述要求的长度为1的序列模式b: b可以添加到的最后一个元素中并为序列模式 <b>可以作为的最后一个元素并为序列模式 对每个生成的序列模式b,将b添加到形成序列模式’,并输出’ 对每个’,构造’的投影数据库S|’ ,并调用子程序PrefixSpan(’, L + 1, S|’) 2001-8-15

三、PrefixSpan算法 PrefixSpan算法分析: PrefixSpan算法不需要产生候选序列模式,从而大大缩减了检索空间 相对于原始的序列数据库而言,投影数据库的规模不断减小 PrefixSpan算法的主要开销在于投影数据库的构造 2001-8-15

三、PrefixSpan算法 PrefixSpan算法的主要改进: 逐层投影:使用隔层投影代替逐层投影,从而可以有效减小投影数据库的个数 伪投影:当序列数据库可以直接放入内存时,可以使用伪投影操作代替实际的投影数据库,从而可以有效减少构造投影数据库的开销 2001-8-15

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 三、PrefixSpan算法 隔层投影的例子: 扫描序列数据库,产生所有长度为1的序列模式 再次扫描序列数据库,构造如下图所示的下三角矩阵,得到所有长度为2的序列模式 构造长度为2的序列模式所对应的扫描数据库,然后对每个投影数据库,重复上面的操作,直到没有新的序列模式产生为止 a 2 b (4,2,2) 1 c (4,2,1) (3,3,2) 3 d (2,1,1) (2,2,0) (1,3,0) e (1,2,1) (1,2,0) (1,1,0) f (1,1,1) (2,0,1) 2001-8-15

三、PrefixSpan算法 伪投影:当数据库可以直接放入内层时,并不需要构造所有的序列模式对应的投影数据库,我们可以使用指向数据库中序列的指针及其偏移量作为伪投影 例子:假设上述序列数据库可以放入内层,在构造a投影数据库时,序列 S1 = <a(abc)(ac)d(cf)>所对应的伪投影为:一个指向S1的指针,指针偏移设定为2。同样的,序列S1的<ab>投影数据库对应的伪投影为:一个指向S1的指针,指针偏移设定为4 2001-8-15