业务过程模型库索引技术研究 金涛 清华大学.

Slides:



Advertisements
Similar presentations
艾滋病的医学名称 “ 获得性免疫缺陷综合症 ” 艾滋是其四个英文单词第一个字母的 合拼字 AIDS 的译音.
Advertisements

普利策奖获得者 杰奎琳 · 巴那金斯基: 所有故事都是新闻. 生平简介 杰奎琳 · 巴那金斯基女士是密苏里新闻学院教授, 同时兼任美国《西雅图时报》星期日版 助理执行总编辑和新闻采访部高级主任编辑。《西雅图时报》是美国著名报纸之一, 平 日发行量为 25 万份, 星期日发行量为 55 万份。巴那金斯基女士还曾任普利策奖评委。
青少年预防爱滋病 10 条核心信息 广西医科大学 广西医科大学 陆焯平 陆焯平. 1 艾滋病是一种病死率极高的严重传染病, 目前还没有治愈的药物和方法,但可以预防. -- 艾滋病是由艾滋病病毒引起的一种严重传染病。 -- 艾滋病的医学全称为 “ 获得性免疫缺陷综合征 ” (英文缩写 AIDS )。
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
歷史二 第一篇 第二章 三代的興衰與文化 第一節 三代興衰與封建體制 第二節 時代劇變與學術教育的發達.
病历书写 中山医院呼吸科 张 新. 定 义 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理, 按照规定的格式而写成的;是关于病人发病情况, 病情发展变化,转归和诊疗情况的系统记录。 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理,
第十二章 病历书写与要求 病历病历 医务人员在医疗中形成的文字、符号、图表、 影像、切片等资料的总和。 病历书写 通过诊法、诊断、治疗、护理等医疗活动获得有关资 料,进行归纳、分析、整理形成医疗活动记录行为。 病历意义 A 诊疗等的源文件; B 复 / 转 / 会诊,解决医疗纠纷、判定法律责任、医疗保险等的资料和依据;
导 游 基 础 知 识.
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
高雄榮民總醫院簡介 中華民國九十一年二月一日 製.
改革开放的新时代 科技 作者:郑霁、周顺琪、顾翊晨、 唐欣怡、薛沁昀、陆依敏.
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
第一章 管理的真谛.
外国小说话题突破系列之七 情感.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
一般纳税人增值税 纳税申报表填写指引 白银高新区国税局 纳税服务科 2016年5月.
關於男同志.
数据库技术 实践.
第7课 古罗马的政制与法律.
第二单元 商鞅变法 第1课 改革变法风潮与秦国历史机遇(背景) 第2课 “为秦开帝业”──商鞅变法(内容)
信息技术环境中在职教师 信息技术培训效果的评价研究
复习 传染病及其预防.
内 容 ● 民间非营利组织会计实务操作 ● 项目会计核算中注意事项 ● 社会组织年检报告的填列 ● 社会组织评估中财务资产指标的解释
荆轲刺秦王 《战国策》.
风中的红丝带 ——预防艾滋病.
初探逻辑推理 提高思维水平 ——《逻辑和语文学习》
企業資源規劃教學計畫 講師:郭怡君.
列王紀下8章 啟示錄12章 書念婦人 婦人 死裡復活的兒子 被提的男孩子 七年饑荒 三年半大災難 非利士地 曠野 歸還房屋田地
佛教既是外來宗教, 為何盛行於中國?.
港澳信義會明道小學 天地有情 分享者:徐燦麗老師、 蘇娟玉老師 日期:2005年12月3日 P.1.
管 理 学 Management.
关于职教发展的几个理念 上海市教育科学研究院 周亚弟.
第二章 三代的興衰與文化 第二節 時代劇變與學術教育的發達
江苏衡鼎律师事务所苏州分所 苏州广正知识产权代理有限公司
台灣的名勝古蹟.
桃園縣龜山鄉文欣國小 校園植物簡介 內庭區.
第九章 长期资产及摊销 2017/3/21.
南亚、中亚 要点·疑点·考点 位置:位于喜马拉雅山以南,印度洋以北,大部分在10°N~30 °N之间 内陆国——尼泊尔、锡金、不丹
張騫、班超通西域.
台灣史總複習.
第一节 决策的概述 第二节 决策的理论 第三节 决策的过程 第四节 决策的方法 第五节 集体决策与个体决策
第7章 廉洁行政与行政监督 主讲:张等菊.
舌尖上的邵阳 Business And.
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
朝代接龙(排一排,把下列朝代按建立的先后顺序排列)(10分)
使用说明 在家电产品中的标准化事例介绍 海尔集团
第一單元 儒家思想與中國社會 專題一 孔孟思想與儒家的發展.
我国处理民族关系的基本原则.
斗兽场 万神殿 圣彼得大教堂 君士坦丁凯旋门.
回忆与思考: 中国早期政治制度有哪些重要特点? ◇神权与王权结合; ◇以血缘关系为纽带形成国家政治结构;
屏東縣獅子鄉內獅國民小學 103年度衛生簡報 護理師 廖曉芬.
國文報告 儒家生死文化討論 不死鳥 組員 972BP001 彭科強 972BP008 王薪榕 972BP025 彭裕宗
11 室外装饰设计 本章提要 本章主要讲述了室外装饰设计的含义及其基本特征,室外装饰设计的基本原则,中外室外装饰设计的基本概况,室外装饰设计与室外环境的关系、建筑装饰的细部设计以及店面装饰设计等内容。
第六节 春秋战国时期的社会经济和社会变革.
马克思主义基本原理概论 第三章 人类社会及其发展规律.
选课网址:(必须用谷歌浏览器) 选课时间:星期天上午10点之后
Minimum Spanning Trees
Chapter 6 Graph Chang Chi-Chung
圖論 (Graph Theory) B 電機四 大鳥 B 電機四 酋長 B 電機四 炫大
National Bureau of Statistics of China
数据挖掘工具性能比较.
織物的認識 演示者:陳明玲 美容科:家政概論.
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
DeepPath 周天烁
3.16 枚举算法及其程序实现 ——数组的作用.
数据集的抽取式摘要 程龚, 徐丹云.
Konig 定理及其证明 杨欣然
Maximum Flow.
第八章 异步电动机.
JAVA 程式設計與資料結構 第二十一章 Graph.
Presentation transcript:

业务过程模型库索引技术研究 金涛 清华大学

业务过程管理技术应用广泛 Surveys  over  the  past  five  years  have shown  process management to be the number one concern of senior executives [Gartner, 2010] Gartner Prediction: “By 2014, 40% of business managers and knowledge workers in Global 2000 enterprises will use comprehensive business process models to support their daily work, up from 6% in 2009.”

业务过程模型数据日益增多 SAP参考模型 600+ Haier 3,000+ SunCorp 6,000+ 北车集团 200,000+

模型检索 模型重用 业务整合 SOA 提高建模效率 避免重复存储 相似业务过程的检索 服务的查找与组合 基于BPEL 北车集团20多个子公司合并,业务流程整合 SOA 服务的查找与组合 基于BPEL

模型检索分类 基于结构的精确查询 基于行为的精确查询 基于结构的相似检索 基于行为的相似检索

基于结构的检索 精确查询 相似检索 问题 子图匹配算法为NPC问题 图的相似度计算为NPC问题

基于行为的检索 精确查询 A->D && B||C 相似检索 问题 行为的计算复杂度高

使用索引过滤 Filtering-verfication framework 索引用于过滤 索引元素 索引元素的快速提取 基于索引的查询处理

评价指标 有效性(Effectiveness) 效率(Efficiency) 可扩展性(Scalability) Precision: 100% Recall: 100% 效率(Efficiency) 时间(Time efficiency) 查询时间、索引建立(更新)时间 空间(Space efficiency) 索引存储空间大小 可扩展性(Scalability) 效率随规模的变化

相关研究1——图数据库管理 基于结构的精确查询 基于结构的相似检索 基于feature:GraphGrep (PODS2002)、gIndex (SIGMOD2004,TODS2005)、TreePi (ICDE2007)、 Tree+Delta (VLDB2007)、FG-Index (FG*-Index) (SIGMOD2007,TODS2009)、Swift-index (PVLDB2008) 基于closure:Closure-tree (ICDE2006) 基于分解:GDIndex (ICDE2007) 基于编码:summarization graph index (DASFAA2008)、 Gstring (ICDE2007)、Gcoding (EDBT2008) Diskbased benchmark:iGraph (PVLDB2010) 基于结构的相似检索 RASCAL (THE COMPUTER JOURNAL 2002) Grafil (SIGMOD2005,TODS2006)

常用数据库 AIDS Antiviral Screen dataset Chemical molecule Count: 43,905 Avg: 25.4 vertices and 27.3 edges Max: 222 vertices and 251 edges Labels: 62 (vertex) and 3 (edge)

业务过程模型特点 有向图,唯一的源点和终点,边不带标签,变迁结 点带标签(任意长度字符串) Label多,频繁子图少 存在模型嵌套 具有行为语义

相关研究2——业务过程模型查询 BP-QL (VLDB2005,VLDB2006,IS2008) WISE (ICDE2009) VisTrail (SIGMOD2008) BPMN-Q (WWW2010,DASFAA2010) n-gram index (ICWS2006) conf/otm/YanDG10 (CoopIS2010)

我们的工作 Label相似性的考虑 基于结构的精确检索 基于结构的相似检索 基于行为的精确检索 基于行为的相似检索 PathIndex 基于结构的相似检索 TaskEdgeIndex 基于行为的精确检索 TaskRelationIndex 基于行为的相似检索 TARIndex http://code.google.com/p/beehivez/

Label相似性考虑 用户决定是否考虑label相似性 用户在查询处理过程决定label相似性阈值 Filtering:扩展查询条件 Verfication:结合label相似性 构造独立于其它索引的label索引

基于行为的查询 行为计算基于unfolding技术

未完工作——模型嵌套处理 查询样例 借鉴上下文无关文法 FIRST FOLLOW SELECT

未完工作——基于bisimulation的相似性度量 pn1和pn2等价吗?

http://code.google.com/p/beehivez/

Q & A

业务过程模型样本特征 数据集 模型数 变迁数 库所数 弧数 图密度 Avg Max DG 114 9 34 9.7 33 19.3 70 0.1 0.5 SAP 591 6.8 53 10.6 65 17.7 142 0.2 TC 123 13 39 11.5 32 26.3 80 数据集 模型数 变迁总数 路由变迁 标签总数 # 1.0 0.9 0.8 0.7 0.6 0.5 DG 114 1035 153 819 806 802 747 710 595 464 SAP 591 4013 1653 3146 3062 3058 2786 2693 2366 2036 TC 123 1595 352 1262 1252 1249 1183 1136 1009 818

业务过程模型库频繁子图 DG(114) # 1.0 0.9 0.8 0.7 0.6 0.5 2/114 60478 (33) 60481 (35) 61084 (47) 61073 (46) 179607(50) 70567 (67) 4/114 416 (7) 419 (11) 437 (13) 434 (10) 440 (17) 7/114 59 (7) 102 (7) 122 (9) 122 (8) ## 8/114 9/114

业务过程模型库频繁子图 SAP(591) # 1.0 0.9 0.8 0.7 0.6 0.5 4/591 1747 (141) 1922 (154) 2298 (178) 2303 (192) 3862 (237) 2554 (329) 6/591 199 (84) 203 (97) 216 (122) 219 (125) 270 (188) 322 (270) 10/591 8 (10) 9 (20) 18 (69) 34 (190) ## 11/591 33/591 44/591

业务过程模型库频繁子图 TC(123) # 1.0 0.9 0.8 0.7 0.6 0.5 3/123 2 (15) 4 (17) 10 (23) 13 (26) 27 (42) 81 (73) 7/123 2 (17) 10/123 1 (10) ## 11/123

Label相似性度量 W(l): l中单词个数 SCW(l1,l2): l1中单词能在l2中找到同义词的个数 可替换为其他基于的term的相似性度量