数据的背后 闵帆 博士·副教授 漳州师范学院粒计算重点实验室 砺志楼414

Slides:



Advertisements
Similar presentations
我的 动 堂天 漫 制作人: 13312—22 青春 情感 悬疑推理 魔 法 系 列 动 漫系 列 动 漫 之.
Advertisements

1. 一. 人口分布  全球約十分之九的人口集中在北半球。  三大人口稠密區:亞洲東南半壁、歐洲、北美洲東部  季風亞洲人口占全球一半。  人口稀少區 太乾-北非撒哈拉沙漠 太濕-亞馬孫、剛果雨林 太冷-西伯利亞、南極 崎嶇-東非、青藏高原 2 台灣人口分佈狀況 (04 : 43) p.83.
早自修課推動班級家長說故事及 經驗分享活動。 寒假親師生戶外參訪 ~ 原鄉文化、田園野趣學 習之旅 ~ 造訪鍾理和紀 念館、文學步道。親師生戶外參訪.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
手动换页 域外风情系列 儿子去美国留学,毕业后定居美国。还给我找了 个洋媳妇苏珊。如今,小孙子托比已经 3 岁了。 今年夏天,儿子为我申请了探亲签证。在美国待 了三个月,洋媳妇苏珊教育孩子的方法,令我这 个中国婆婆大开眼界。
99學年度第1學期導師輔導工作座談會 全校性共同必修服務學習課程 報告單位:學務處領導知能與服務學習中心.
陕旅版五年级下册 Unit5:What’s the weather like today? 教者:郭小华.
4月2日是安徒生诞辰200周年纪念日,世界各国的读者以各种各样的方式怀念这位给儿童带来感动和快乐的童话巨人。
台北市立聯合醫院南軟門診部 皮膚科醫師簡介 溫素瑩醫師 學經歷: 中山醫學院醫學系畢業 台北醫學大學醫學資訊研究所碩士
第四课 今天是晴天.
第一章 会计信息系统 第一节 计算机会计概述.
分類:基本概念、決策樹與模型評估.
我在哈佛、麥肯錫 學到的一流工作術 富坂美織◎著.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
系統分析與設計 系級:資管三B 姓名:朱秋儒 學號:
防制學生藥物濫用 高雄市教育局校外分會 林永興教官.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
第4章 聚类分析 4.1 概述 4.2 基于划分的聚类算法 4.3 层次聚类算法 4.4 基于密度的聚类算法 4.5 基于图的聚类算法
中国文学 王馨.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
一言之辩强于九鼎之宝 三寸之舌胜于百万雄师
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
经济法 富国?富民? 税法篇.
2009年 初夏 某天 我 一個人 一輛車 計劃 沒有計劃 只想 漫無目的 到處亂晃 感覺夏天的散漫.
班級:夜師資一甲 指導老師:蘇國榮老師 姓名:929201林佑蓉 石依縈 李玉玫 桂秀媛
湖北武当山.
P28 Let's learn & Let’s play
LESSON 37 SEASONS AND WEATHER
MODULE 11 Unit 1 It may be cold tomorrow.
如何使用CiteSpace分析Derwent专利数据
数据挖掘工具--WEKA教程 WEKA简介…….2 数据集……..11 数据准备…..24 数据预处理…36 分类……………63
Data Mining 工具介紹 (Weka+JDBC)
Data Mining 工具介紹 (Weka/R + ODBC)
SOA – Experiment 3: Web Services Composition Challenge
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
Hello! Everyone! Welcome to our class!.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
Online job scheduling in Distributed Machine Learning Clusters
What have we learned?.
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
飯店業的介紹.
Course 4 分類與預測 Classification and Prediction
選擇勞退新制,終身免煩惱 勞工退休金新制 說明會.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
Happy times!.
學生:吳星龍 班級:資管二乙 指導老師:劉書彥
微信商城系统操作说明 色卡会智能门店.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
机器学习-概念学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
3.16 枚举算法及其程序实现 ——数组的作用.
数据集的抽取式摘要 程龚, 徐丹云.
欠拟合与过拟合 龙沛洵
設計者:台中市重慶國小 張祐榕.楊晟汶.張儷齡
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于最大margin的决策树归纳 李 宁.
一元二次不等式解法(1).
業務員 傷害險通報作業 新光人壽內網-產險傷害險通報P2~P4 【個人】傷害險通報作業P5~P10 【團體】傷害險通報作業P11~P16
2009年 初夏 某天 我 一個人 一輛車 計劃 沒有計劃 只想 漫無目的 到處亂晃 感覺夏天的散漫 按鍵換頁--輕音樂欣賞.
古佳怡 AI 人工智慧.
Rainbow Home Church 注目耶稣之176 增 值 人 生.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
績優教師分享 美容保健科 林品瑄 教師.
教育部國民及學前教育署 新課綱銜接教材數位平台
最小生成树 最优二叉树.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

数据的背后 闵帆 博士·副教授 漳州师范学院粒计算重点实验室 砺志楼414 作业:fjzsroughsets@163.com 答疑:周四全天(包括晚上) http://grc.fjzs.edu.cn/~fmin/ 1

数据库表Weather No. Outlook Temperature Humidity Windy Play 1 sunny hot high false N 2 true 3 overcast P 4 rain mild 5 cool normal 6 7 8 9 10 11 12 13 14

问题 有多少种可能的组合? 试比较记录No. 1与No. 2,可得到什么结论? 试比较记录No. 5与No. 6,可得到什么结论?

第一章 决策树 令Play为决策属性,以 Outlook -> Temperature -> Humidity -> Windy 的顺序构造一棵决策树

决策树 Outlook Sunny Overcast Rain Temperature Hot Cool Mild N P Humidity Normal High Windy False True

课堂练习 以Temperature -> Outlook -> Windy -> Humidity 与 Humidity -> Windy -> Temperature -> Outlook 的顺序各构造一棵决策树

问题 不同的顺序导致决策树的大小是否相同? 不同的决策树进行分类的效果是否相同? 试构造一个新实例,它导致分类结果不同。

讨论 决策树越大越好还是越小越好? Occam’s razor(上网搜索) 复杂的模型导致过度拟合,简单模型则有更好的归纳能力

课堂练习 构造一棵最小的决策树,不同的分支可用不同属性

最小决策树 Outlook Sunny Overcast Rain Humidity High Normal N P Windy False True

ID3算法 Step 1. 选择合适的属性,使其信息增益最大; Step 2. 根据该属性将数据分成几个子集;

信息增益计算方法 选择属性时不需要计算I(p, n),因为对于不同属性该值相同

Congratulations! 你已经掌握了数据挖掘最重要的算法!

作业2 Weka的安装与使用 下载JDK, Weka 安装 运行Weka,测试数据集Weather.nomimal

运行选项 Classifier: trees -> Id3 Test option: Using training set

结果 outlook = sunny | humidity = high: no | humidity = normal: yes outlook = overcast: yes outlook = rainy | windy = TRUE: no | windy = FALSE: yes

Woooo! 你已经能用决策树来分析自己的数据! 问题:分析的效果如何?

训练与测试 用一部分数据来训练分类器(决策树) 另外的数据来测试该分类器的效果

iris.nominal.arff运行结果 Test option: Percentage split 60% === Confusion Matrix === a b c <-- classified as 12 0 0 | a = Iris-setosa 0 11 2 | b = Iris-versicolor 0 0 10 | c = Iris-virginica

连续属性值 用C4.5(J48) 选择合适的断点(离散化)

iris.arff运行结果(树) 66%训练,其余测试 petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6 | petalwidth <= 1.7 | | petallength <= 4.9: Iris-versicolor (48.0/1.0) | | petallength > 4.9 | | | petalwidth <= 1.5: Iris-virginica (3.0) | | | petalwidth > 1.5: Iris-versicolor (3.0/1.0) | petalwidth > 1.7: Iris-virginica (46.0/1.0)

iris.arff运行结果(准确率) === Confusion Matrix === a b c <-- classified as 15 0 0 | a = Iris-setosa 0 19 0 | b = Iris-versicolor 0 2 15 | c = Iris-virginica

作业3 专业数据分析 构造你所学专业数据 用ID3或C4.5分析 上传源数据与运行结果

参考文献 [1] J.R. Quinlan, Induction of Decision Trees, Machine learning 1: 81-106, 1986 (被引用次数9054)

第二章 属性约简与属性值约简 属性约简是粗糙集的一个重要问题 动机 删除冗余属性以加快学习速度,提高分类器精度(多数属性约简工作的目标) 减少数据获取的代价,即测试代价(闵帆的最新研究重点)

决策表的属性约简 在Weather决策表中,哪些属性去掉后,不影响分类器(如决策树)的生成?

数据库表Weather No. Outlook Temperature Humidity Windy Play 1 sunny hot high false N 2 true 3 overcast P 4 rain mild 5 cool normal 6 7 8 9 10 11 12 13 14

删除Windy No. Outlook Temperature Humidity Play 1 sunny hot high N 2 8 mild 11 normal P 9 cool 4 rain 14 10 5 6 7 overcast 12 13 3

删除Humidity No. Outlook Temperature Windy Play 1 sunny hot false N 2 true 8 mild 11 P 9 cool 4 rain 10 14 5 6 7 overcast 12 13 3

删除Temperature ?

删除Outlook ?

讨论 哪些属性可以被约简? 有哪些约简? {Outlook, Humidity, Windy} {Outlook, Temperature, Windy} 可否有多个属性被同时约简?

最小约简 属性数量最少的约简被称为最小约简 Zoo有33个约简,最小的有5个属性,最多的有7个 { a2, a3, a5, a7, a12 } { a0, a2, a5, a7, a10, a12 } { a0, a2, a5, a6, a9, a11, a12 } { a0, a2, a5, a7, a11, a12 } ......

最小测试代价约简 假设各属性的测试代价如下: 哪个约简为最小代价约简? Outlook Temperature Humidity Windy ¥1 ¥2 ¥3 ¥4 哪个约简为最小代价约简?

问题 为什么要找最小约简? 为什么要找最小测试代价约简? 两个问题有什么关系?

核属性 包含在所有约简中的属性 本例中为{Outlook, Windy}

属性值约简 把某属性值设为“不关心”,用*表示

获得的特殊决策表 把某属性值设为“不关心”,用*表示 No. Outlook Temperature Windy Play 1 sunny hot false N 2 true 8 mild 11 P 9 cool 4 rain 10 14 5 6 7 overcast 12 13 3 把某属性值设为“不关心”,用*表示

生成规则集合(课堂演示) 把某属性值设为“不关心”,用*表示 No. Outlook Temperature Windy Play 1 sunny hot false N 2 true 8 mild 11 P 9 cool 4 rain 10 14 5 6 7 overcast 12 13 3 把某属性值设为“不关心”,用*表示

Yes! 你已经掌握了基于属性值约简的规则生成算法!

最新进展 带测试代价约束条件的属性约简 由于代价原因,无法获得一个真正的约简

LEM2 算法 在Rses中使用LEM2算法生成规则集合。

参考文献 [1] Z. Pawlak, “Rough sets”, International Journal of Computer and Information Sciences, 11: 341-356, 1982. (被引用次数6887) [2] A. Skowron and C. Rauszer, “The discernibility matrics and functions in information systems”, Intelligent Decision Support: 331-362, 1992. [3]F. Min, H, He, Y. Qian, and W. Zhu, “Test-cost-sensitive attribute reduction”, Information Sciences, vol. 181, Issue 22, pp. 4928-4942, November 2011. (Most read)