王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所

Slides:



Advertisements
Similar presentations
1 全體委員學校 歡迎記者小姐、先生蒞臨指導 104 學年度招生說明會. 104 學年度招生記者會 簡 報簡 報簡 報簡 報 報告人 : 總幹事 吳宗霖 中華民國 104 年 7 月 10 日 2.
Advertisements

行政院原住民族委員會 法規暨訴願審議委員會 102 年度原住民身分法實例演練講習: 原住民身分認定及救濟程序.
本校自民國 78 年於顏前校長世錫任內創設本系 設立鑑識科學學系大學部,專責鑑識人才之培養, 為目前國內唯一專門培育鑑識科學人才、研究鑑識 科學學術之大學學系,設系剛滿 20 年。自 85 年於姚 前校長高橋任內,設立鑑識科學研究所招收碩士生 ,民國 88 年於謝前校長瑞智任內先後獲內政部、教.
病历书写 中山医院呼吸科 张 新. 定 义 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理, 按照规定的格式而写成的;是关于病人发病情况, 病情发展变化,转归和诊疗情况的系统记录。 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理,
第十二章 病历书写与要求 病历病历 医务人员在医疗中形成的文字、符号、图表、 影像、切片等资料的总和。 病历书写 通过诊法、诊断、治疗、护理等医疗活动获得有关资 料,进行归纳、分析、整理形成医疗活动记录行为。 病历意义 A 诊疗等的源文件; B 复 / 转 / 会诊,解决医疗纠纷、判定法律责任、医疗保险等的资料和依据;
東南科技大學餐旅管理系 新生選課輔導 何俊明 104 年 10 月 26 日. 東南科技大學餐旅管理系學生選課輔導辦法  一、本系為因應學生多元管道入學,輔導學生依個人專長、興趣及生涯規 劃進行選課,特訂定「東南科技大學餐旅管理系學生選課輔導辦法」(以 下簡稱本辦法)。  二、本系於新生入學二個月內,針對新生辦理「選課輔導說明會」,內容.
第二节 基因在亲子代间的传递. 1. 什么叫做遗传? 2. 什么叫做性状? 3. 性状是由什么决定的?
第二章:生物科學與食品 第三節:基因改造食品.
第三章 现代教育与人的发展.
庄暴见孟子 《孟子 》.
课外文言文阅读.
说课课件 感悟工业革命力量,闪耀科技创新光辉 ----《走向整体的世界》教学设计及反思 爱迪生 西门子 卡尔·本茨 诺贝尔 学军中学 颜先辉.
肖 冰 深圳市达晨创业投资有限公司 副总裁 深圳市达晨财信创业投资管理公司 总裁
第21课时 生物圈中的微生物 考 点 聚 焦 专 项 突 破 1.
國民中學 自然與生活科技 第二冊 第3章 生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.
第三单元 从两汉到南北朝得分合.
学校核心发展力 上海市建平中学 程红兵.
一. 上市以来,业绩稳定增长 2009年上市以来,公司业绩稳定增长,兑现上市承诺 业绩增长走势图.
必修二 生物 (人教版).
第四讲 组织结构与人员配置 复旦大学管理学院 芮明杰教授
想一想 议一议 P74 我们常吃的蘑菇有根、茎、叶吗? 它们的生长是否需要光? 为什么说它们是真菌而不是植物呢?
三次科技革命 学习目标: 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力
面試技巧與自我行銷 董曉光 Samuel Tung.
拉萨属高原温带半干旱季风气候,平均海拔3658米,年日照3000多小时,素有“日光城”、“太阳城”的美誉。年最高气温29℃,最低气温零下16
美国史 美利坚合众国创造了一个人类建国史的奇迹,在短短230年的时间从一个被英帝国奴役的殖民地到成为驾驭全世界的“超级大国”、“世界警察”,美国的探索为人类的发展提供了很宝贵的经验。
50年代 吳瀛濤 都市 這是衣服多彩的油畫 一曲豪華的樂章 且是現代產業的基地 今日文化的中心 甚至是罪惡的窩巢 冒險的樂園
第 2 章 生物的遺傳 2-1 基因與遺傳 2-2 細胞分裂 2-3 遺傳法則 2-4 突變 2-5 生物科技.
LOGO 积极心态,积极人生 ——行政人事中心.
父亲的菜园 王树槐 引导者:江山市长台小学 朱丽云.
王永慶遺產分配 第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意
台南在地美食文化介紹 台南市鳳凰城文史協會 理事長 歐財榮.
台灣的名勝古蹟.
一、作者概說:    王壽來,民國三十八年生,山西省 五臺縣人,中興大學 法律系畢業,美國 喬治城大學碩士、臺灣師範大學 美術研究所碩博士。長期從事文化與外交工作,現任文建會 文化資產總管理處籌備處主任。   王壽來靈感多取自生活經驗,善用中外名言,描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。
第十八章 萜类和甾族化合物.
各類植物開花授粉後很快的就會形成果實,準備傳宗接代。果實著生的狀態與開花的方式有關,由花序所形成的果實會聚集呈聚合果:
自然與生活科技 南一版 三上.
道德讲堂 级新疆预科班.
食品营养成分的检验. 食品营养成分的检验 科学探究的一般过程: 形成假设 设计方案 收集数据 表达交流 处理信息 得出结论 探究:馒头和蛋糕中是否含有淀粉和脂肪 假设:馒头和蛋糕中含有淀粉和脂肪.
鸿门宴 制作yu.
导入新课 波能绕过障碍物产生衍射。既然光也是一种波,为什么在日常生活中难以观察到光的衍射现象呢?.
高中生物学必修Ⅰ 分子与细胞 前 言.
态度决定一切! 开创幸福、富有、健康的人生。.
台灣史總複習.
乙肝小三阳怀孕需要注意哪些事项.
关注生物技术的 伦理问题.
2015年高考历史质量分析报告 兰州市外国语高级中学 杨彩玲.
肝功能正常的小三阳注意事项.
突變 突變是指遺傳物質發生改變, 而影響到性狀的表現 例:白化症.
新疆自治区“十二五”科技发展 规划编制工作
宋卫国 科技部中国科学技术发展战略研究院 科技统计与分析研究所(科技统计分析中心) 北京3814信箱
國文報告 儒家生死文化討論 不死鳥 組員 972BP001 彭科強 972BP008 王薪榕 972BP025 彭裕宗
人类传播的发展进程.
实施依法治安 推进地质勘探企业安全生产标准化
中国民族药物学概论 第二十一讲 壮医药 刘 圆 教授 主讲 西南民族大学 精品资源共享课程 西南民族大学 青藏高原研究院 民族医药研究院
不放过每一点疏漏 不放弃每一分希望 2012年高考之前 陕西省西安中学 亢永平.
司法机关.
机器学习研究及最新进展 谭营 教授 北京大学智能科学系 视觉与听觉信息处理国家重点实验室
Fuzzy在生活上的應用 陳詩豐 助理教授 龍華科技大學機械系.
What is this animal?.
生物五界的分類方式.
PowerClick Demo.
第六次全国人口普查 近期数据处理工作部署 夏雨春 2010年12月28日.
Yu-Chen 嘉義市立北興國民中學 新校舍符合永續建築 廚房新建工程 忠孝、仁愛、中正、至善樓修繕工程.
人是由什么发育而来的? 一个受精卵.
Lesson 4 Horses and Rabbits
17 無母數統計檢定  學習目的.
非同源染色体:不是同源染色体的两条染色体
数据挖掘导论 福建医科大学 郑伟成.
99 教育部專案補助計畫案明細 大類 分項 教育部補助 學校配合款 工作項目 計畫主 持人 執行期限 文號 備註 設備費 業務費 管理學院
证据运用 第八章 证据的运用 第一节 证据体系的结构及运用规则.
Presentation transcript:

王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所 机器学习研究 王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所

反思 网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢? 我们的研究应注意哪些课题呢?

需求---NII计划 不分地域地、有效地获得与传输信息。 不分地域地、有效地共享硬软资源。 有效地利用信息,以提高生产率。 保证信息安全。

在过去的十年中,做了什么? 以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。 人们已可以从不同地域有效地获得信息。 但是,,,

硬软资源的使用 在网络上的硬软资源的利用率只有3-5%。 大量计算资源没有由于网络设施的支持而被充分利用。 硬软件的快速更新,导致对环境的污染。

信息的有效使用 由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。 占用大量硬软资源的信息正在大量地被浪费。

信息安全 信息的安全还没有保证。

提高信息使用率 以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。

机器学习 复杂数据分析(符号机器学习)

机器学习 机器学习的一般说明 统计机器学习 集成机器学习

机器学习的研究动力 领域应用驱动。 算法驱动。

领域应用驱动 自然语言数据分析。 DNA数据分析。 网络与电信数据分析。 图像数据分析。 金融与经济数据分析。 零售业数据分析。 情报分析。 没有一种算法可以解决复杂的实际问题。需要各种算法集成。

算法驱动 海量数据(108-10)。 算法的泛化能力,或算法可解释。 不同类型数据的学习方法。

机器学习研究热点的变迁 1989年(Carbonell), 1997年(Dietterich) 符号机器学习。 符号机器学习。 符号机器学习。 符号机器学习。 连接机器学习。 集成机器学习。 遗传机器学习。 统计机器学习。 分析机器学习。 增强机器学习。

机器学习计算的说明 令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW。

三个要求 一致性假设:机器学习任务的本质。 对样本空间的划分:决定对样本的有效性。 泛化能力:决定对世界的有效性。

一致性假设 假设世界W与被观察的对象集合Q具有某种相同的性质。 称为一致性假设。

基于统计的假设 原则上说,存在各种各样的一致性假设。 在统计意义下,一般假设: W与Q具有同分布。或, 给定世界W的所有对象独立同分布。

划分 将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的区域。 机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。

超平面类型 光滑且连续的超平面。 有限不光滑点,甚至有限不连续点的超平面。

光滑连续超平面作为研究基础 Perceptron,人工神经网络是典型例子。 困难:

泛化 机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。 泛化是一个确定的划分对世界的分类能力。 由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器。

Duda的泛化能力描述 以样本个数趋近无穷大来描述模型的泛化能力。 泛化能力需要使用世界W来刻画,是无法构造的判据。 均方差可作为目标函数。

评述 由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。 在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。 Vapnik对这个问题做出重要贡献。 这样,注重从划分变为泛化。

以划分能力为目标的研究 这类研究的指导思想,一直延续到上个世纪的九十年代。 直到今天,还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。 划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。

神经网络---BP算法 使用了一种非线性的基函数。 这项研究的意义是为研究者回归感知机做好了舆论的准备。 其在科学上的意义,远不如提示人们再次注意感知机的作用更大。

统计机器学习理论与SVM 对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。 但是,如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了。 事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。

机器学习的统计假设 机器学习的统计基础是基于经验风险最小假设,以此,对机器学习算法所建模型的泛化能力估计(经验风险)。

Vapnik的统计观点 Vapnik希望改变Duda的统计观点。 泛化描述“从样本数趋于无穷大”变为“在给定样本集”基础上判定。 由此,建立基于样本集合结构的VC维来描述的理论。 这样,机器学习的目标函数就可以建立在样本集合的结构之上。 这是统计机器学习理论的精髓。

泛化能力 以下不等式依概率1-成立: R: 包含所有样本的球半径 M: 边缘 l: 样本个数

泛化不等式的解释 M>0,边缘不能等于零。这意味着,样本集合必须是可划分的。 边缘最大,泛化能力最强。泛化能力可以使用样本集合的边缘来刻画。 泛化能力的描述无需使用世界W来刻画,而只需样本集合Q来刻画。

泛化能力的几何解释(示意图)

线性可分问题 定理: 如果一个样本集合是线性可分的,它们一定可以构成两个不相交的闭凸集。 这样,线性可分问题变为计算两个闭凸集的最大边缘问题。

线性不可分问题 划分问题:怎样获得两个不相交的闭凸集。 泛化问题:怎样使两个闭凸集之间的距离最大。

核技术 可以证明,一定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。 研究核函数选择的技术称为核技术。

SVM 给定核函数,如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集,则对这个样本集合的最大边缘可以通过二次规划、计算几何等方法获得。由此,可以获得支持向量。 这就是SVM。

未解决的问题 在特征空间样本集合是否可以划分为不相交的闭凸集,决定于核函数的选择。 最大边缘尽量大,也决定于核函数的选择。 核函数的选择没有一般的方法。 准确地说,加大特征空间维数是一个方法,确定最小维数没有P算法。

解决线性不可分问题的方法 核函数选择的困难可能是根本性的。 技术措施:同时考虑不满足一致性假设的情况。 软边缘。 集成机器学习。

两类技术措施的统计解释 目的是解决样本集合不满足一致性假设,采用不确定性来补充,以使得模型与实际世界的统计分布一致。 措施: 软边缘:将边缘改为软性(有个范围),以适应需要。 集成机器学习:多个分类器集成,以使用不同模型补充一个模型的不足。

集成机器学习动机 弱分类器设计简单。 在理论上似乎与Madaline类似。

集成机器学习 1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。 进而,又说明,这类集成后的强分类器具有统计学习理论的基础。

弱分类器 如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。 这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。

集成 在分类时,采用投票的方式决定新样本属于哪一类。 由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。

为什么吸引人 弱分类器比强分类器设计简单 以统计学习理论为基础

Vapnik的贡献 给出了可以指导机器学习算法设计的泛化理论。 成为一种机器学习的规范。 建立了从数据到分布的基本方法。 以后机器学习的研究必须考虑从数据到分布的归纳机理问题。 R

复杂数据分析 复杂数据分析的一般性说明 符号机器学习

复杂数据分析---一类需求 机器学习研究方兴未艾,还有大量的理论与技术问题未解决。 由于获得数据的手段的改善,在各行各业人们可以方便地获得越来越多的数据。但是,这些数据的积累也带来副作用,一方面,消耗大量资源,另一方面,无法使用的数据,就是垃圾。 另一个任务悄悄兴起,这就是复杂数据分析。

基于统计的数据分析不能满足需求 在某些行业,仅仅依赖积累的数据所建立的模型不能准确地预测未来。 原因是:对大多数情况, 积累的数据与未来将发生的事件不满足一致性假设,而是可能相差甚远。 个别事件可能比统计显现的事件更为重要。

例如 零售业:积累的数据只能部分指导未来的进货策略与销售策略,特别是变化快的行业,例如,音像制品。 电信业:对长久大户的特殊服务,对电信业至关重要。从海量数据中发现这些用户仅仅使用统计方法是不够的。 情报分析:寻找不同常规行为的事件。

人们不相信模型 由于大多数数据集合不能满足一致性假设,使得人们可能不一定相信来自观测数据所建立的模型。 医疗诊断、零售业的各种问题、经济分析等专家系统所面临的问题就于此有关。

阅读数据的需求 “一致性假设”不满足,导致人们阅读数据的需求。 人类阅读数据能力是有限的,需要计算机帮助。 例如,在电信业、数据服务业、零售业、股票证券业,每天的数据量在106-8。 假设每页A4有1000字符,这大约103-5页。 假设人一分钟可以阅读一页,大约需要103-5分钟,16-1600小时,0.7-70天。 对一定的需求,在保持需求信息不丢失的条件下,减少数据长度是阅读数据的必要条件。

未来十年关键性的研究课题 对大多数情况,一致性假设完全不能满足,甚至不能假设其近似满足。 随着获得数据越来越容易,这个问题将越来越突出。 目前计算机90%的处理量是符号性的,只有10%是数值性的,未来的情况将可能与这类似。

复杂数据分析的要求 需要考虑每个被观测(积累)数据在这个领域中所扮演的角色。 需要考虑不同用户在共享同一个数据集合的不同需求(包括解与解的长度)。 传统的统计分析方法不能满足这些要求,需要研究观测数据的内在结构。 这类研究也可以称为数据描述。

用户需求 对同一个数据集合,可能有不同的用户共享,而不同用户需要不同的解答。 这与机器学习具有不同的目标。 一般地说,机器学习以一个统计函数为目标,而数据描述则必须根据不同需求的前提下建立不同的目标。

应用领域 DNA功能分析。 电信数据客户分析。 金融、经济数据分析。 图像数据分析。 文本分析。 情报分析。等等。

符号与数值 对实际世界中某个事务,人们往往采用两种方式来描述:数值与语言(符号或概念)。 颜色:赤橙黄绿青蓝紫,或光的波长。前者是语言性的,后者是数值性的。 体温:发烧,或37度以上。

人类思考的语言倾向 事实上,在大多数情况下,人类的思考借助于语言或图像,而不是数值。

技术方法之一---符号机器学习 根据不同数据类型与不同需求,数据描述需要多种方法。 来源于机器学习的方法是符号机器学习,它只能解决其中一部分问题。

基于符号机器学习的数据描述 可以分为三个步骤的过程: 根据领域知识,从被直接观测的数值归纳(聚类)为符号(概念)。 将这些符号构成的数据集合,约简为人可阅读的规则集合(其长度必须满足特定用户的要求)。 构成特定语言或图形文本,或添加不确定性描述。

符号机器学习 在上述过程中第二步的约简算法称为符号机器学习。 其原始动机与统计机器学习完全相同,即泛化能力应该是其优劣的评价准则。 但是,我们认为,它与统计机器学习不具有竞争力。 它的优势在于符号信息的变换。

符号机器学习的历史 1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习。 1967年Gold证明,这是不可能的实现的。

Samuel的贡献 六十年代末,Samuel将这类机器学习演变为一类基于符号数据集合的约简过程。这是符号机器学习的基础。

两类最重要的符号机器学习算法 覆盖算法与分治算法。 七十年代末,Michalski基于带等号的逻辑演算,提出了AQ11算法,称为符号机器学习的覆盖算法。 1986年,Quinlan提出了决策树算法,也称为分治算法。

注释 决策树算法的优点是计算效率高。 将决策树算法推广到C4.5,使其可以处理连续量。本质是将聚类与约简两个步骤合二为一。 现已证明,可以建立与Vapnik理论类似的泛化理论。

符号机器学习优点 由于这类机器学习是将数据直接约简,因此,它的变换过程是透明的。 过程可解释,结果与实际世界相对应,即,“白箱”。 尽管其归纳的结果不一定具有对世界W的普适性,但是,它是给定数据集合在特定需求下的真实且简洁的映像。

描述 需要建立具有表示信息系统结构的理论。 以便可以对在信息系统中每个样本所扮演的角色进行分析。 不能忽视任何样本所带给我们的信息,是这类问题的要点。

要点 矛盾样本可能比无矛盾样本带给我们更激动人心的信息。 新知识来源于对矛盾的分析。

符号机器学习的基础---划分 机器学习的本质是对样本空间的划分。 这需要定义一个等价关系,将样本空间划分为等价类。

等价关系的确定 由于符号机器学习的数据集合已被符号化,因此,符号机器学习所使用的等价关系可以事先确定。 如果将符号化过程与约简过程合并,符号化过程可以理解为一类计算等价关系的过程。 符号机器学习的理论对任何等价关系成立。

{(x, y) : a(x)=a(y), x, yU} 符号机器学习的等价关系 定义在给定符号对象集合U上的等价关系a {(x, y) : a(x)=a(y), x, yU}

Rough Set理论 Pawlak在1982年提出的一种数学理论。 这个理论包含了两个方面的内容: 基于roughness测量的不精确知识表示理论。(与预测任务一致) 约简理论与边缘理论。

知识表示理论 从字面上,rough set理论是一类与Fuzzy set类似的知识不精确表示理论。

约简理论与符号机器学习 可以证明: 覆盖算法与约简理论等价。 分治算法是在树表示条件下约简理论的一个特例。

Rough Set理论的贡献 尽管所有符号机器学习的理论都是基于上述等价关系。但是, Rough Set理论提出了边缘区域的概念。 在约简上,第一次给出了在结构上“非最小”解的精确数学定义---Reduct。 Core的概念。

边缘区域 在信息系统中,所有存在矛盾的样本集合。 如果C(x)=C(y),但是,D(x)D(y),x与y是样本集合中的矛盾对。

边缘区域的研究意义 边缘区域是信息系统矛盾样本的集合。 Rough set理论第一次提供了我们研究矛盾信息结构的机会。

rR, POSR(D)POSR-{r}(D) Reduct 是一个属性集合,当从这个集合中删除一个属性,则至少出现一个新的矛盾样本对。 因此,它是在的不增加新矛盾对的最小属性集合。 rR, POSR(D)POSR-{r}(D)

Reduct的意义 因为reduct空间是唯一的,因此,其任一reduct可以作为一种需求的解答。 这个概念为我们根据用户不同需求选择不同解答提供了条件。

Core 是一个属性集合。 如果删除一个这样的属性,必然出现一个新的样本矛盾对。 反映了信息系统的本质。

Reduct and Core 对同一个信息系统,不同用户可能需要不简洁程度的文本。 Reduct是最小属性集合,可以作为文本的基础。

性质 根据reduct可以建立一个新的信息系统,这个信息系统的所有属性是core。 这个性质对形成不同简洁程度文本有重要的应用。

Rough Set理论是一种约简理论。 Rough set理论作为知识表示理论没有竞争性。 Rough Set术语是历史的误会。

例子---“鸟”信息系统(赵岷)

信息系统的语句集合

语言描述---1 The bird is the animal that can fly but is non-gregarious, or can fly and lay eggs, or can lay eggs and has lung and is gregarious.”

The sentence set with Penguin and Ostrich as exceptions

语言描述---2 The bird is the animal that can fly and lay eggs. Penguin and Ostrich are exceptions.

The sentence set with Penguin, Ostrich and Fruit bat as exceptions

语言描述---3 The bird is the animal that can fly. Penguin, Ostrich 是鸟,但是不会飞。 Fruit bat 会飞,但是不是鸟。 它们是上述规则的例外。

小结 描述任务需要了解每个样本个体意义,而预测任务需要了解样本集合整体的意义。 符号机器学习的方法提供研究样本集合中个体的能力,是解决一类描述问题的有力工具。 Rough set理论的边缘区域、Reduct and Core为我们提供了在以前研究中,从未提供的功能。

总结 四类机器学习是目前研究的主流。一些其他机器学习方法,正在等待时机,以期待重新兴起。 需要更多的数学知识。简单的写程序的工作,将逐渐变为软件工人的事情。 计算机科学家面临来自数学家与物理学家的严重生存挑战。

当务之急 补充数学也许是计算机科学研究者的当务之急。 尽管数学不是万能的,但是没有数学是万万不能的!

谢 谢