关联分类算法的研究 符号学习研究组 赵东垒 dongleizhao@163.com Hebei University.

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

科技部專題研究計畫撰寫與分析 國際及兩岸事務暨研究發展處 時 間:2015年11月4日 報 告 人:曾俊堯 博士
透過合作學習照顧學習差異 工作坊 2009年11月9日 九龍九龍塘沙福道19號教育局 九龍塘教育服務中心西座3樓W301室 香港教育學院課程與教學學系助理教授 陳錦榮博士
Data Mining: Concepts and Techniques
提纲 主要参考书目 AI的基础及萌芽 AI的创立及发展 AI的主要研究范围 国外著名的AI研究机构 AI在中国 AI的最新动态
第一章 会计信息系统 第一节 计算机会计概述.
研究所升學考試 準備策略 蘇武楨.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
Some Knowledge of Machine Learning(1)
王晨 指导教师:张军平副教授 复旦大学计算机科学技术学院 上海市智能信息处理重点实验室
個人簡介 施再繁 台大電機所計算機組博士.
報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2. 報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2.
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
秦兵马俑 Qin Bing Ma Yong 主办:焦溪中心小学 主编:刘寒晔 2006年2月22日
频繁模式与关联规则挖掘 林琛 博士、副教授.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
簡歷與辦學理念 報告人: 徐敬文 國立台灣科技大學講座教授 Fellow, IEEE 中華民國101年6月14日.
姓 名: 刘永鹏 专 业: 计算机应用 指导老师:王宗敏 教授 李润知 讲师
第八章 金融投资-股票投资.
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
虚拟机实时迁移技术 (Live Migration)
libD3C: 一种免参数的、支持不平衡分类的二类分类器
Rate and Distortion Optimization for Reversible Data Hiding Using Multiple Histogram Shifting Source: IEEE Transactions On Cybernetics, Vol. 47, No. 2,February.
Improving classification models with taxonomy information
資訊管理 第九章 資料採礦.
ACM简介及使用指南.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
Department of Computer Science & Information Engineering
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
第8章 關聯分析 王海.
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
现代信息检索 Modern Information Retrieval
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
基于自适应同步的网络结构识别 陆君安 School of Mathematics and Statistics, Wuhan University (复杂网络论坛,北京,April.27-29th,2011)
參考資料 American Association of School Librarians & Association for Education Communications and Technology (1998). Information Literacy Standards for Students.
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
Introduction to AI and ML
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
天線工程期中報告 “Low-SAR Hexa-Band Antenna for Mobile
基于类关联规则的分类 Classification Based on Class-Association Rules
多準則決策分析於 ERP系統選擇之應用 論文讀後 心得報告 指導:趙 新 民 老師 學生:D 盧國樑
信息素养知识 信息素养系列讲座第1讲: 主讲人:赵建庆 (中北校区) 电 话:
模糊系统与模糊控制简介 --博士生论坛系列报告.
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
Github已有工作调研 邹卫琴 南京大学 , 南京.
API文档分析 张静宣 大连理工大学 2017年11月3日.
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
模式识别与智能系统研究中心介绍 2017年8月.
广州中医药大学研究生 学位论文网络提交方法
前向人工神经网络敏感性研究 曾晓勤 河海大学计算机及信息工程学院 2003年10月.
清華大學 青少年科技文化夏令營 迎生聚會 2006年7月7日 香港教育工作者聯會會所.
报告人:王文星 作 者:王文星 闻立杰 谭士杰 单 位: 清华大学软件学院
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
A Data Mining Algorithm for Generalized Web Prefetching
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
合作學習 2009年10月28日 香港教育學院小班發展與研究中心聯席總監 陳錦榮博士
基于最大margin的决策树归纳 李 宁.
高效洁净机械制造实验室是 2009 年教育部批准立项建设的重点实验室。实验室秉承“突出特色、创新发展“的宗旨,以求真务实的态度认真做好各项工作。 实验室主任为黄传真教授,实验室副主任为刘战强教授和李方义教授。学术委员会主任为中国工程院院士卢秉恒教授。实验室固定人员中,有中国工程院院士艾兴教授,教育部.
6.引用資訊之技巧.
商業智慧實務 Practices of Business Intelligence
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
Presentation transcript:

关联分类算法的研究 符号学习研究组 赵东垒 dongleizhao@163.com Hebei University

课题研究目的 国际研究现状 主要研究内容和创新点 研究过程可能遇到的困难及解决方案 总结 参考文献 Hebei University

课题研究目的 分类问题是通过分析给定的一个带有类别标识的训练数据集,建立一个分类器,然后预测那些未知类别的数据对象 关联分类算法 数据集中属性的取值是符号型的 课题研究目的就是改进、优化关联分类算法 提高关联分类算法的分类精度 提高关联分类算法的效率 提高关联分类算法的可理解性 Hebei University

国际研究现状 1998年Liu等提出了基于类关联规则的分类算法CBA。 1999年Dong等提出显露模式分类法CAEP。 2000年Wang等结合关联规则分类和决策树分类提出关联决策树。 2001年Li等提出基于多条关联规则的分类算法CMAR。 2003年Yin等提出预测型关联规则的分类算法CPAR。CPAR采用贪婪方法从数据集中挖掘出较小规则集。 2004年Antonie提出正负关联规则的分类算法。 2005年Wang提出HARMONY,它直接挖掘覆盖样例置信度最高的规则。 2006年Adriano Veloso等提出的lazy关联分类。 2006,2007年Arunasalam提出了适用与类不平衡数据上的关联分类。 Hebei University

基本概念 关联规则:A=>B If A then C 定义1 规则的支持度 定义2 规则的置信度 数据集中匹配规则前件A, 并且满足类别属性取值为C的样例的个数. 定义2 规则的置信度 规则的支持度与数据集中匹配规则前件A的样例的个数的比值. Hebei University

主要研究内容和创新点 关联分类算法的优点 关联分类算法存在的问题 分类精度高 适应性强 算法的执行效率 更高效的挖掘方法 算法的执行效率 更高效的挖掘方法 剪枝的质量和效率 新的规则序关系 分类器的可理解性 交叠现象对分类起的影响 Hebei University

已完成的工作 算法的执行效率 在构造带类别标识的FP-tree时,在每个节点注册相应类别信息。 扩展TD-FP-Growth算法,使它能直接挖掘满足最小支持度和最小置信度的类关联规则。 优点:两次扫描数据库,不用重复建立条件FP-tree。减少了内存消耗,提高了运行效率。 Hebei University

带类别标识FP-tree的构造 Hebei University

剪枝的质量和效率 关联分类中最敏感的问题 如何评价类关联规则的质量 如何从大量的关联规则中选择有效的规则构造分类器 Hebei University

如何评价类关联规则的质量 经典关联分类规则序关系的定义 给定规则Ri,Rj。 Ri优于Rj,当且仅当满足以下条件之一: Hebei University

经典关联分类规则序关系的缺点 综合考虑置信度和支持度。 其本质是采用置信度,支持度,规则项数目评价顺序。过分强调了置信度,这样在最后构造的分类器中,使得有些规则置信度很高而支持度不高,造成过度拟合。 综合考虑置信度和支持度。 Hebei University

R1有较好的泛化能力,R2可能过度拟合数据。 R1: sup(R1) = 100, conf(R1) = 98% R2: sup(R2) = 10, conf(R2) = 100% 经典序关系 R1 < R2 R1 > R2 R1有较好的泛化能力,R2可能过度拟合数据。 Hebei University

15个UCI数据库测试结果 Hebei University

医疗图像数据库测试结果 Hebei University

以后要完成的工作 完善规则评价函数 引入规则的项数 考虑类别不平衡情况 分类器中规则交叠对分类精度的影响 Hebei University

分类器的可理解性 关联分类构造分类器的方法 分类器的特点 挖掘满足置信度和支持度阈值要求的类关联规则 将规则按定义的序关系排序,基于数据覆盖来选择规则 分类器的特点 数据集中每条记录都被一条评价值最高的规则覆盖 分类器中的规则在训练集中存在相互交叠的现象 规则的数目较多 Hebei University

交叠现象怎样产生的 1 .. 10 20 30 40 Hebei University R1:20, 100% R2:20, 95%

交叠问题解决方法 每选择一条规则后,更新剩余规则的置信度,支持度。 难度 更新的计算量大 采用更新,是否比以前的方法有效 Hebei University

研究过程可能遇到的困难及解决方案 规则评价函数的确定 交叠现象对分类精度的影响 不同数据库的影响 选择规则后,更新置信度和支持度 比较不同交叠情况的分类精度 Hebei University

总结 针对关联分类算法存在的问题 算法的执行效率 剪枝的质量和效率 分类器的可理解性 Hebei University

参考文献 [1] B. Liu, W. Hsu and Y. Ma. Integrating Classification and Association Rule Mining. In Proc. of 1998 Int. Conf. on Knowledge Discovery and Data Mining (KDD'98), pp.80-86, New York, Aug 1998. [2] J. Han, J. Pei and Y. Yin. Mining Frequent Patterns without Candidate Generation. In Proc. of the ACM-SIGMOD 2000 Int. Conf. on Management of Data (SIGMOD’00), pp.1−12, Dallas, May 2000. [3] W. Li, J. Han and J. Pei. CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules. In Proc. of 2001 IEEE Int. Conf. on Data Mining (ICDM'01), pp.369-376, San Jose CA, Nov 2001. [4] J. Li, G. Dong, K. Ramamohanarao and L. Wong. DeEPs: A New Instance-Based Lazy Discovery and Classification System. Machine Learning. 54, pp.99-124, 2004. [5] Adriano Veloso, Wagner Meira Jr, and Mohammed J. Zaki. Lazy Association Classification. In Proc. of 2006 IEEE Int. Conf. on Data Mining (ICDM'06), pp.645-654, Hong Kong, Oct 2006. [6] Maria-Luiza Antonie, Osmar R. Zaiane, and Robert C. Holte. Learning to Use a Learned Model: A Two-Stage Approach to Classification. In Proc. of 2006 IEEE Int. Conf. on Data Mining (ICDM'06), pp.645-654, Hong Kong, Oct 2006. [7] Abdelaziz Berrado, George C. Runger. Using Metarules to Organize and Group Discovered Association Rules. Data Mining and Knowledge Discover. 14: 409-431, 2007. [8] F. Thabtah, P. Cowling, and Y. Peng. MCAR: Multi-class Classification based on Association Rule Approach. In Proceeding of the 3rd IEEE International Conference on Computer Systems and Applications. pp.1-7. Cairo, Egypt. Hebei University

[9] O. R. Zaiane and M. -L. Antonie [9] O. R. Zaiane and M.-L. Antonie. On pruning and tuning rules for associative classifiers. In Proc. of Int'l Conf. on Knowledge-Based Intelligence Information & Engineering Systems (KES'05), pp.966-973, 2005. [10]Adriano Veloso, Wagner Meira Jr.: Rule Generation and Rule Selection Techniques for Cost-Sensitive Associative Classification. In SBBD 2005. pp.295-309, 2005. [11]J. Wang and G. Karypis. HARMONY: Efficiently Mining the Best Rules for Classification. In Proc. of 2006 SIAM Int. Conf. on Data Mining (SDM'05), California, USA, April 2005. [12]Bing Liu, Yiming Ma, C-K Wong, Classification Using Association Rules: Weaknesses and Enhancements. In Vipin Kumar, et al, (eds), Data mining for scientific applications, 2001 [13] X. Yin and J. Han. CPAR: Classification based on Predictive Association Rules. In Proc. 2003 SIAM Int.Conf. on Data Mining (SDM'03), San Fransisco, CA, May 2003. [14] Frans Coenen and Paul Leng. The Effect of Threshold Values on Association Rule Based Classification Accuracy. Journal of Data and Knowledge Engineering, Vol. 60, Num. 2, pp345-360, February 2007 [15] Frans Coenen, Paul Leng, and Lu Zhang. Threshold Tuning for Improved Classification Association Rule Mining. In Proc. of 6th Pacific Area Conference on Knowledge Discovery and Data Mining (PAKDD'05), pp.334-340, Taipei, May 3-8 2002 [16] Maria-Luiza Antonie and Osmar R. Zaiane, An Associative Classifier based on Positive and Negative Rules, In 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD-04), pp 64-69, Paris, France, June 2004 Hebei University

[17] Yanbo J. Wang, Qin Xin and Frans Coenen [17] Yanbo J. Wang, Qin Xin and Frans Coenen. A Novel Rule Ordering Approach in Classification Association Rule Mining. In Proc. MLDM'2007, pp339-348. 2007. [18] Frans Coenen and Paul Leng. An Evaluation of Approaches to Classification Rule Selection. In Proc. of 2004 IEEE Int. Conf. on Data Mining (ICDM'04), pp359-362, 2004 [19] K. Wang, S. Zhou, and Y. He. Growing decision tree on support-less association rules. In Proc. Of 2000 Int. Conf. on Knowledge Discovery and Data Mining (KDD'00), Boston, MA, Aug. 2000. [20]Frans Coenen and Paul Leng. Obtaining Best Parameter Values for Accurate Classification. In Proc. of 2005 IEEE Int. Conf. on Data Mining (ICDM'05), pp.597-600, 2005 [21] D. Meretakis and B. Wuthrich. Extending Naïve Bayes Classifiers Using Long Itemsets. In Proc. 1999 Int. Conf. on Knowledge Discovery and Data Mining (KDD'99) , pages 165-174, San Diego, CA, Aug. 1999. [22] Bing Liu, Yiming Ma, and Ching Kian Wong. Improving an Association Rule Based Classifier. In Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, Pages: 504 – 509, 2000 [23] Bavani Arunasalam and Sanjay Chawla. CCCS: A Top-down Associative Classifier for Imbalanced Class Distribution. In Proc. Of 2006 Int. Conf. on Knowledge Discovery and Data Mining (KDD'06), pp.517- 522. 2006 [24] Florian Verhein and Sanjay Chawla. Using Significant, Positively Associated and Relatively Class Correlated Rules for Associative Classification of Imbalanced Datasets, In Proc. of 2007 IEEE Int. Conf. on Data Mining (ICDM'07), 2007. Hebei University

问题? 谢谢! Hebei University