序列模式挖掘算法简介报告人：邓爱林 2001-8-15.

Slides:

Advertisements

Similar presentations

莱西市实验中学曹军娥复习目标： 1. 掌握眼球的结构及各部分的功能 2. 理解并记住视觉的形成过程 3. 推断近视眼、远视眼的成因及矫正方法并注意用眼卫生 4. 描述耳的结构及各部分的功能 5. 理解并记忆听觉形成的过程。 6. 说出导致耳聋的各种因素以及预防措施并注意用耳卫生。

Advertisements

知道什么是遗传能够分辨什么是相对性状知道基因、 DNA 和染色体之间的关系掌握基因的传递过程课堂总结与课后延伸.

因果图. 因果图因果图的适用范围如果在测试时必须考虑输入条件的各种组合，可使用一种适合于描述对于多种条件的组合，相应产生多个动作的形式来设计测试用例，这就需要利用因果图。因果图方法最终生成的就是判定表。它适合于检查程序输入条件的各种组合情况。因果图的适用范围如果在测试时必须考虑输入条件的各种.

第七章求职方法和技巧（二）主讲人：谭琳. 第一节自荐一、目前常见的自荐种类 1 ．口头自荐 1 ．口头自荐 2 ．书面自荐 2 ．书面自荐 3 ．广告自荐 3 ．广告自荐 4 ．学校推荐 4 ．学校推荐 5 ．他人推荐 5 ．他人推荐.

年輕駕駛交通工具考上駕照的 18 歲，正好是高中畢業，離家工作、上大學的時候。年輕人對新環境的好奇及生疏，以及尚未養成良好駕駛習慣，造成意外的產生。

选修3 现代生物技术专题第三节蛋白质工程.

必修2 第一单元古代中国经济的基本结构和特点

《可能性大小》的教学比较一、介绍两个版本的教材 · 北师大版（七上）第7．1节一定摸到地球吗摸球游戏——体验事件发生的可能是有大小的

新約研讀彼得前書複習讀經組

受益權自由權參政權納稅平等權其他基本權服兵役 2-1人民基本權利的種類 2-3憲法規定的人民基本義務受國民教育

人生格言：天道酬勤学院：自动化与电气工程学院班级：自师1201 姓名：刘威.

全面推进基础教育综合改革 ——在基础教育综合改革推进暨“1751”工程总结会上的讲话

浙江省深化高校考试招生制度综合改革试点方案（2017新方案）

第五单元社会生活的变迁第1课时衡量变化的尺子 ——— 时间和纪年新围初中王济洪.

歷史建築清水國小宿舍群修復工程施工說明會

採購規範運用實務(含履約管理) 主講人：新北市政府採購處勞務採購科陳佑民.

2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。？

第四讲　生物技术的安全性和伦理问题.

Some Knowledge of Machine Learning（1）

第三讲行政许可的具体分类（一）.

第2章基因和染色体的关系第1节减数分裂和受精作用.

第一节：食物中的营养物质.

《旅游文化》项目二姓氏称谓避讳宁波东钱湖旅游学校.

3.2 体外受精和早期胚胎培养.

初级会计实务第八章产品成本核算主讲人：杨菠.

摇摆的中东地区永嘉县实验中学张杰.

摇摆的中东地区永嘉县实验中学张杰.

消防安全知识昆明市公安消防支队盘龙区大队.

2011年高考复习数学考纲分析克拉玛依市高级中学冯祥杰.

杜甫诗三首《望岳》《春望》《石壕吏》授课人：姚晓霞.

中考阅读复习备考交流西安铁一中分校向连吾.

高考新改革与过渡怀化市铁路第一中学向重新.

老年性皮肤瘙痒的防治.

2014一轮复习生物试题的选编与使用研究胶州市第三中学孙方磊.

税收理论与实务第六章个人所得税.

频繁模式与关联规则挖掘林琛博士、副教授.

岳阳市教学竞赛课件勾股定理授课者赵真金.

CH3 關聯規則授課老師：簡禎富講座教授簡禎富、許嘉裕©2014 著作權所有.

推行使用散装预拌砂浆全面贯彻落实禁现政策

中央广播电视大学开放教育成本会计（补修）期末复习

人教版义务教育课程标准实验教科书小学数学四年级上册第七单元《数学广角》合理安排时间 248.

第三单元发展社会主义民主政治.

3.3 资源的跨区域调配 ——以南水北调为例铜山中学李启强.

初三历史复习课八上第一单元侵略与反抗草桥实验中学朱萍.

专题二识图题增分技巧.

新学考与选考背景下细胞分裂专题解读之一、二、三、四、五岱山中学张海楠.

上海交通大学概率论第一、二章测验题大学数学教研室童品苗.

中考语文积累永宁县教研室步正军 2015．9.

新北市政府所屬各機關辦理採購規範主講人：新北市政府採購處李佳航、黃建中、陳佑民.

小学数学知识讲座应用题.

勾股定理说课人：钱丹.

倒装句之其他句式.

江苏省2009年普通高校招生录取办法江苏省教育考试院

杜甫诗三首《望岳》《春望》《石壕吏》.

Advanced Topics in Data Mining: Sequential Patterns

第 22 课孙中山的民主追求 1 ．近代变法救国主张的失败教训： “师夷之长技以制夷”“中体西用”、兴办洋务、变法维新等的失败，使孙中山

房地产业营改增税制变革知识讲座二0一五年四月二十日.

第8章關聯分析王海.

人教版数学四年级（下）乘法分配律单击页面即可演示.

基于类关联规则的分类 Classification Based on Class-Association Rules

熔化和凝固.

藝術大師－達利.

第一部分　数字电路第4章　组合逻辑电路主讲教师：喻红.

數學遊戲二大象轉彎.

美丽的旋转.

畢氏定理(百牛大祭)的故事張美玲製作資料來源：探索數學的故事（凡異出版社）.

102年人事預算編列說明邁向頂尖大學辦公室製作.

Presentation transcript:

序列模式挖掘算法简介报告人：邓爱林 2001-8-15

报告的主要内容序列模式简介 GSP算法 PrefixSpan算法 2001-8-15

一、序列模式简介序列模式的概念最早是由Agrawal和Srikant 提出的序列模式定义：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 2001-8-15

一、序列模式简介例子1：在两年前购买了Ford 牌轿车的顾客，很有可能在今年采取贴旧换新的购车行动例子2：在购买了自行车和购物篮的所有客户中，有70%的客户会在两个月后购买打气筒 2001-8-15

一、序列模式简介应用领域：客户购买行为模式预测 Web访问模式预测疾病诊断自然灾害预测 DNA序列分析 2001-8-15

一、序列模式简介符号化表示：项目集(Itemset)是各种项目组成的集合序列(Sequence)是不同项目集(ItemSet)的有序排列，序列s可以表示为s = <s1s2…sl>，sj(1 <= j <= l)为项目集(Itemset)，也称为序列s的元素序列的元素(Element)可表示为(x1x2…xm)， xk(1 <= k <= m)为不同的项目，如果一个序列只有一个项目，则括号可以省略一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列 2001-8-15

一、序列模式简介符号化表示：设 = <a1a2…an>， = <b1b2…bm>，如果存在整数1 <= j1 < j2 <…< jn <= m，使得a1  bj1，a2  bj2，…， an  bjn，则称序列为序列的子序列，又称序列包含序列，记为   序列在序列数据库S中的支持数为序列数据库S中包含序列的序列个数，记为Support() 给定支持度阈值，如果序列在序列数据库中的支持数不低于，则称序列为序列模式长度为l的序列模式记为l-模式 2001-8-15

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> 一、序列模式简介例子：设序列数据库如下图所示，并设用户指定的最小支持度min-support = 2。 Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是长度为3的序列模式 2001-8-15

一、序列模式简介问题描述：给定序列数据库和最小支持度阈值，序列模式挖掘就是要找出序列数据库中所有的序列模式系统规定：由于同一个元素中的项目之间排列没有顺序，为了表达的唯一性，我们将同一个元素内部的不同项目按照字典顺序排列 2001-8-15

一、序列模式简介序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法：类似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法：采用分治的思想，不断产生序列数据库的多个更小的投影数据库，然后在各个投影数据库上进行序列模式挖掘 2001-8-15

一、序列模式简介上述算法存在的主要问题：缺少时间限制：用户可能需要指定序列模式的相邻元素之间的时间间隔。例如，一个序列模式可能会发现客户在购买了物品A后的第三年购买物品B。我们需要的却是给定时间间隔内用户的购买意向事务的定义过于严格：一个事务中包含在客户的一次购买行为中所购买的所有物品。可能需要指定一个滑动时间窗口，客户在滑动时间窗口的时间段内的所有的购买行为均作为一个事务缺少分类层次：只能在项目的原始级别上进行挖掘 2001-8-15

二、GSP算法 L1 C2  L2  C3  L3  C4  L4  …… GSP算法描述：根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1；然后扫描序列数据库，计算每个候选序列模式的支持数，产生长度为i+1的序列模式Li+1，并将Li+1作为新的种子集重复第二步，直到没有新的序列模式或新的候选序列模式产生为止 L1 C2  L2  C3  L3  C4  L4  …… 2001-8-15

二、GSP算法产生候选序列模式主要分两步：连接阶段：如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同，则可以将s1于s2进行连接，即将s2的最后一个项目添加到s1中剪切阶段：若某候选序列模式的某个子序列不是序列模式，则此候选序列模式不可能是序列模式，将它从候选序列模式中删除 L1 C2  L2  C3  L3  C4  L4  …… 2001-8-15

二、GSP算法例子：下图演示了如何从长度为3的序列模式产生长度为4的候选序列模式 Sequential patterns With length 3 Candidate 4-Sequences After Join After Pruning <(1,2) 3> <(1,2) (3,4)> <(1,2) 4> <(1,2) 3 5> <1 (3,4)> <(1,3) 5> <2 (3,4)> <2 3 5> 2001-8-15

二、GSP算法候选序列模式的支持度计算：对于给定的候选序列模式集合C，扫描序列数据库，对于其中的每一条序列d,找出集合C中被d所包含的所有候选序列模式，并增加其支持度计数 L1 C2  L2  C3  L3  …… 2001-8-15

二、GSP算法 GSP算法存在的主要问题：如果序列数据库的规模比较大，则有可能会产生大量的候选序列模式需要对序列数据库进行循环扫描对于序列模式的长度比较长的情况，由于其对应的短的序列模式规模太大，本算法很难处理 2001-8-15

三、PrefixSpan算法相关定义前缀：设每个元素中的所有项目按照字典序排列。给定序列 = <e1e2…en>， = <e1’ e2’… em’>(mn) ，如果ei’ = ei (i  m - 1)， em’  em，并且(em - em’)中的项目均在em’中项目的后面，则称是的前缀投影：给定序列和 ，如果是的子序列，则关于的投影’必须满足： 是’的前缀，’是的满足上述条件的最大子序列后缀：序列关于子序列 = <e1e2… em-1em’>的投影为’ = <e1e2… en> (n >= m)，则序列关于子序列的后缀为<em”em+1… en>，其中em” = (em - em’) 2001-8-15

三、PrefixSpan算法例子： <a(abc)(ac)d(cf)> <a> 2001-8-15

三、PrefixSpan算法算法描述：扫描序列数据库，生成所有长度为1的序列模式根据长度为1的序列模式，生成相应的投影数据库在相应的投影数据库上重复上述步骤，直到在相应的投影数据库上不能产生长度为1的序列模式为止 S11 …… … S1 … S S1n …… Sm Sm1 …… … 2001-8-15 Smp ……

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> 三、PrefixSpan算法扫描序列数据库S，产生长度为1的序列模式有：<a> : 4, <b>:4, <c> : 4, <d> : 3, <e> : 3, <f> : 3 序列模式的全集必然可以分为分别以<a>，<b>，<c>，<d>，<e>和<f>为前缀的序列模式的集合，构造不同前缀所对应的投影数据库，结果如下页图所示分别对不同的投影数据库重复上述过程，直到没有新的长度为1的序列模式产生为止 Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 2001-8-15

三、PrefixSpan算法 Prefix Project Database <a> <(abc)(ac)d(cf)> <(_d)c(bc)(ae)> <(_b)(df)cb> <(_f)cbc> <b> <(_c)(ac)d(cf)> <(_c)(ae)> <(df)cb> <c> <c> <(ac)d(cf)> <(bc)(ae)> <b> <bc> <d> <(cf)> <c(bc)(ae)> <(_f)cb> <e> <(_f)(ab)(df)cb> <(af)cbc> <f> <(ab)(df)cb> <cbc> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 2001-8-15

三、PrefixSpan算法定义1. 投影数据库：设为序列数据库S中的一个序列模式，则的投影数据库为S中所有以为前缀的序列相对于的后缀，记为S| 定义2. 投影数据库中的支持数：设为序列数据库S中的一个序列模式，序列以为前缀，则在的投影数据库S|中的支持数为S|中满足条件  .的序列的个数 2001-8-15

三、PrefixSpan算法 PrefixSpan算法输入：序列数据库S及最小支持度阈值min_sup 输出：所有的序列模式 2001-8-15

三、PrefixSpan算法子程序PrefixSpan(, L, S|) 参数： . 一个序列模式 L. 序列模式的长度 S| . 如果为空，则为S，否则为的投影数据库扫描S|，找到满足下述要求的长度为1的序列模式b： b可以添加到的最后一个元素中并为序列模式 <b>可以作为的最后一个元素并为序列模式对每个生成的序列模式b，将b添加到形成序列模式’，并输出’ 对每个’,构造’的投影数据库S|’ ,并调用子程序PrefixSpan(’, L + 1, S|’) 2001-8-15

三、PrefixSpan算法 PrefixSpan算法分析： PrefixSpan算法不需要产生候选序列模式，从而大大缩减了检索空间相对于原始的序列数据库而言，投影数据库的规模不断减小 PrefixSpan算法的主要开销在于投影数据库的构造 2001-8-15

三、PrefixSpan算法 PrefixSpan算法的主要改进：逐层投影：使用隔层投影代替逐层投影，从而可以有效减小投影数据库的个数伪投影：当序列数据库可以直接放入内存时，可以使用伪投影操作代替实际的投影数据库，从而可以有效减少构造投影数据库的开销 2001-8-15

<a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 三、PrefixSpan算法隔层投影的例子：扫描序列数据库，产生所有长度为1的序列模式再次扫描序列数据库，构造如下图所示的下三角矩阵，得到所有长度为2的序列模式构造长度为2的序列模式所对应的扫描数据库，然后对每个投影数据库，重复上面的操作，直到没有新的序列模式产生为止 a 2 b (4,2,2) 1 c (4,2,1) (3,3,2) 3 d (2,1,1) (2,2,0) (1,3,0) e (1,2,1) (1,2,0) (1,1,0) f (1,1,1) (2,0,1) 2001-8-15

三、PrefixSpan算法伪投影：当数据库可以直接放入内层时，并不需要构造所有的序列模式对应的投影数据库，我们可以使用指向数据库中序列的指针及其偏移量作为伪投影例子：假设上述序列数据库可以放入内层，在构造a投影数据库时，序列 S1 = <a(abc)(ac)d(cf)>所对应的伪投影为：一个指向S1的指针，指针偏移设定为2。同样的，序列S1的<ab>投影数据库对应的伪投影为：一个指向S1的指针，指针偏移设定为4 2001-8-15