机器学习研究及最新进展 谭营 教授 北京大学智能科学系 视觉与听觉信息处理国家重点实验室

Slides:



Advertisements
Similar presentations
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
Advertisements

Some theoretical notes on boosting
基于LAMOST的 致密天体与恒星族的多波段观测 刘继峰 国家天文台 银河系三维结构团组.
Unsupervised feature learning: autoencoders
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
第四章 集成学习与弱可学习理论.
資料探勘(Data Mining)及其應用之介紹
王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學 資訊管理系 李麗華 教授.
人工智能 上海交通大学计算机系 卢 宏 涛 2003年9月.
libD3C: 一种免参数的、支持不平衡分类的二类分类器
深層學習 暑期訓練 (2017).
Euler’s method of construction of the Exponential function
Unit 4 I used to be afraid of the dark.
-Artificial Neural Network- Adaline & Madaline
Unit 4 Astronomy the science of the stars.
Some Effective Techniques for Naive Bayes Text Classification
Improving classification models with taxonomy information
Thinking of Instrumentation Survivability Under Severe Accident
第四章 人工智慧演算法 2018/9/19.
Manifold Learning Kai Yang
教師的成長 與 教師專業能力理念架構 教育局 專業發展及培訓分部 TCF, how much you know about it?
Consumer Memory 指導老師 莊勝雄 MA4D0102郭虹汝MA4D0201吳宜臻.
Understanding Report Cards 读懂成绩单 Mr Alex Ward Director of Studies 教学总监
作 業 管 理 指導:盧淵源教授 第四組:碩士專班 N 徐天志 N 林耀宗 N 陳丁雲
Source: IEEE Access, vol. 5, pp , October 2017
SAT and max-sat Qi-Zhi Cai.
Step 1. Semi-supervised Given a region, where a primitive event happens Given the beginning and end time of each instance of the primitive event.
新生代館員知能的培育 柯皓仁 臺灣師範大學圖書館館長.
An Introduction to Computer Science (計算機概論)
The expression and applications of topology on spatial data
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
重點 資料結構之選定會影響演算法 選擇對的資料結構讓您上天堂 程式.
Formal Pivot to both Language and Intelligence in Science
药物和疾病啥关系 ? 李智恒.
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
Source: IEEE Transactions on Image Processing, Vol. 25, pp ,
近期科研汇报 报告人: 纪爱兵.
類神經網路簡介 B 朱峰森 B 梁家愷.
戴运财 浙江农林大学 1.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
Computational Complexity 计算复杂性
Research 裴澍炜 Shuwei Pei Tel:
Total Review of Data Structures
前向人工神经网络敏感性研究 曾晓勤 河海大学计算机及信息工程学院 2003年10月.
虚 拟 仪 器 virtual instrument
檢索與資訊組織 --掌握資訊的贏家 師大圖資所 碩一 陳映后、張榕容.
——Teaching for t_______ hinking
引導教學實務工作的知識根基 從三個面向來思考: 1.教學中的基礎知識是指什麼? 哪些領域的知識最為關鍵? 2.教師如何實踐及運用這些知識?
成才之路 · 英语 人教版 · 必修1 路漫漫其修远兮 吾将上下而求索.
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
演算法分析 (Analyzing Algorithms)
李宏毅專題 Track A, B, C 的時間、地點開學前通知
面試Cosplay 2015/03/31 by江宜倩.
Introduction of this course
(二)盲信号分离.
An Quick Introduction to R and its Application for Bioinformatics
第十一章 基因演算法 (Genetic Algorithms)
Class imbalance in Classification
金融海嘯談金融重建基金之回顧與展望 財政部常務次長 曾銘宗 民國98年6月
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
《神经网络与深度学习》 第10章 模型独立的学习方式
Presentation transcript:

机器学习研究及最新进展 谭营 教授 北京大学智能科学系 视觉与听觉信息处理国家重点实验室 2018/9/16 机器学习研究及最新进展 谭营 教授 北京大学智能科学系 视觉与听觉信息处理国家重点实验室 2018/9/16 谭营---机器学习研究及最新进展

题目:机器学习研究及最新进展 目录 机器学习的定义和任务 机器学习的发展历史 机器学习的主要方法 机器学习面临的挑战 最新发展方向 2018/9/16 谭营---机器学习研究及最新进展

学习系统基本构成 环境 一个基于知识库的智能系统 学习环节: 感知环境,获取知识 常用的学习方法 机械式学习 知识库 指导式学习 学习环节 归纳式学习 类比学习 环境 知识库 学习环节 执行环节 一个基于知识库的智能系统 2018/9/16 谭营---机器学习研究及最新进展

机器学习的定义 (系统自我改进)。 机器学习的重要性: 通过经验提高系统自身的性能的过程 机器学习是人工智能的主要核心研究领域之一, 也是现代智能系统的关键环节和瓶颈。 很难想象: 一个没有学习功能的系统是能被称为是具有智能的系统。 2018/9/16 谭营---机器学习研究及最新进展

实例1:网络安全问题 入侵检测系统IDS: 如何检测? 历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现…… 对当前访问模式分类 是否是入侵?是何种入侵? 如何检测? 历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现…… 对当前访问模式分类 这是一个典型的机器学习问题 常用技术: 神经网络,决策树,支持向量机,贝叶斯分类器,k近邻,聚类,序列分析,免疫网络等 …… 2018/9/16 谭营---机器学习研究及最新进展

实例2:天气预报 如何预测? …… 气象历史数据:以往的各种气象数据及其变化特点…… 对未来一周天气的预报 这是一个典型的机器学习问题 常用技术: 统计多参数模型,神经网络, 贝叶斯分类器,k近邻,聚类 …… 2018/9/16 谭营---机器学习研究及最新进展

实例3:搜索引擎 Google的成功,使得Internet搜索引擎成为一个新兴的产业出现有众多专营搜索引擎的公司(例如百度等专门针对中文搜索),而且Microsoft等巨头也开始投入巨资进行搜索引擎的研发 Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin提出的PageRank算法 机器学习技术正在支撑着各类搜索引擎 (尤其是贝叶斯学习技术) 2018/9/16 谭营---机器学习研究及最新进展

Application 4 2018/9/16 谭营---机器学习研究及最新进展

Application 4 Automatic Car Drive Class of Tasks: Learning to drive on highways from vision stereos. Knowledge: Images and steering commands recorded while observing a human driver. Performance Module: Accuracy in classification 2018/9/16 谭营---机器学习研究及最新进展

Application 5 Learning to classify astronomical structures. galaxy stars Features: Color Size Mass Temperature Luminosity unkown 2018/9/16 谭营---机器学习研究及最新进展

Classifying Astronomical Objects Application 6 Classifying Astronomical Objects Class of Tasks: Learning to classify new objects. Knowledge: database of images with correct classification. Performance Module: Accuracy in classification 2018/9/16 谭营---机器学习研究及最新进展

Other Applications Bio-Technology Protein Folding Prediction Micro-array gene expression Computer Systems Performance Prediction Banking Applications Credit Applications Fraud Detection Character Recognition (US Postal Service) Web Applications Document Classification Learning User Preferences 2018/9/16 谭营---机器学习研究及最新进展

机器学习研究及最新进展 2018/9/16 机器学习的任务 令W是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,我们只能获得这个世界的一个有限的子集QW,称为样本集。 机器学习就是根据这个有限样本集Q ,推算这个世界的模型,使得其对这个世界为真。 泛化 W Model Q 建模 2018/9/16 谭营---机器学习研究及最新进展

机器学习的三要素 (1)一致性假设:机器学习的条件。 (2)样本空间划分:决定模型对样本集合的有效性。 (3)泛化能力:决定模型对世界的有效性。 2018/9/16 谭营---机器学习研究及最新进展

要素1:一致性假设 假设世界W与样本集Q具有某种相同的性质。 原则上说,存在各种各样的一致性假设。 在统计意义下,一般假设: 2018/9/16 谭营---机器学习研究及最新进展

要素2:对样本空间的划分 样本集合模型: 将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。 2018/9/16 谭营---机器学习研究及最新进展

要素3: 泛化能力 通过机器学习方法,从给定有限样本集合计算一个模型,泛化能力是这个模型对世界为真程度的指标。 样本1 样本2 样本3 新样本 泛化值 2018/9/16 谭营---机器学习研究及最新进展

关于三要素 不同时期,研究的侧重点不同 划分:早期研究主要集中在该要素上 泛化能力(在多项式划分):80年代以来的近期研究 一致性假设:未来必须考虑 2018/9/16 谭营---机器学习研究及最新进展

机器学习是多学科交叉 统计学 人工智能 数学 控制论 计算复杂性 机器学习 哲学 其他学科 信息论 认知科学 生物学 应用领域 2018/9/16 谭营---机器学习研究及最新进展

THE QUESTIONS--The Top 25 >What Is the Universe Made Of? >What is the Biological Basis of Consciousness? >Why Do Humans Have So Few Genes? >To What Extent Are Genetic Variation and Personal Health Linked? >Can the Laws of Physics Be Unified? >How Much Can Human Life Span Be Extended? >What Controls Organ Regeneration? >How Can a Skin Cell Become a Nerve Cell? >How Does a Single Somatic Cell Become a Whole Plant? >How Does Earth's Interior Work? >Are We Alone in the Universe? >How and Where Did Life on Earth Arise? >What Determines Species Diversity? >What Genetic Changes Made Us Uniquely Human? >How Are Memories Stored and Retrieved? >How Did Cooperative Behavior Evolve? ………. On 25 big questions facing science over the next quarter-century. (1 July 2005) http://www.sciencemag.org/sciext/125th/ 2018/9/16 谭营---机器学习研究及最新进展

记忆的模型与过程 记忆的模型 记忆的模型与过程通常包括三个相互联系的阶段: 1、编码(encoding),2、存储(storage)3、提取(retrieval) 2018/9/16 谭营---机器学习研究及最新进展

工作记忆(Working Memory) 工作记忆系统能同时储存和加工信息,这和短时记忆概念仅强调储存功能是不同的。 机器学习研究及最新进展 2018/9/16 工作记忆(Working Memory) 工作记忆系统能同时储存和加工信息,这和短时记忆概念仅强调储存功能是不同的。 工作记忆分成:中枢执行系统、视空初步加工系统和语音环路。 工作记忆与语言理解能力、注意力及推理能力等联系紧密,工作记忆蕴藏智能的玄机。 2018/9/16 谭营---机器学习研究及最新进展

Working Memory Model 2018/9/16 谭营---机器学习研究及最新进展

机器学习的分支 数据挖掘:利用历史数据来改进决策 软件应用(不能手工编程的应用) 自用户化程序 例如:医学记录 ——> 医学知识 汽车自动驾驶 语音识别 等 自用户化程序 新闻阅读器学习用户的阅读兴趣。 返回 2018/9/16 谭营---机器学习研究及最新进展

机器学习早期研究 Rosenblatt的感知机(1956)。 Widrow的Madline (1960)。 Samuel的符号机器学习(1965)。 Minsky的“Perceptron”著作(1969,1988)。 2018/9/16 谭营---机器学习研究及最新进展

Perceptrons Devised by Frank Rosenblatt in the late 1950s A single-layer network where all inputs and activation values are either 0 or 1, and the weights are real valued Activation function is a simple linear threshold 1 if ∑ xiwi > t 0 otherwise Supervised learning, perceptron changes weights based on correct results If output is correct, do nothing If output is 0 and should be 1, increment weights on the active lines (input of 1) by some amount d. If output is 1 and should be 0, decrement weights on the active lines by some amount d. 2018/9/16 谭营---机器学习研究及最新进展

Limits of Perceptrons Single-layer networks are only capable of learning classes that are linearly separable For example, exclusive-or is not linearly separable, and thus cannot be represented by a perceptron For any n-dimensional space, a classification is linearly separable if these groups can be separated with a single n-1 dimensional hyperplane Y X X xor Y = 0 X xor Y = 1 1 2018/9/16 谭营---机器学习研究及最新进展

二十世纪八十年代的研究 符号机器学习取得进展。 神经网络的研究。 计算学习理论---PAC(概率近似正确)。 2018/9/16 谭营---机器学习研究及最新进展

两类最重要的符号机器学习算法 覆盖算法与分治算法。 七十年代末,Michalski基于带等号的逻辑演算,提出了AQ11算法,称为符号机器学习的覆盖算法。 1986年,Quinlan提出了决策树算法,也称为分治算法(树结构表示的最早研究是CLS,概念学习系统)。 2018/9/16 谭营---机器学习研究及最新进展

神经网络 Hopfield模型。 Kohonen模型。 Goldberg的ART模型。 ……。 最有影响的是Remulhart等人提出的BP算法(1986)。 2018/9/16 谭营---机器学习研究及最新进展

计算学习理论 1984年,Valiant提出机器学习应该以模型概率近似正确(1-)为指标,而不是以概率为1为指标。 学习算法必须对样本集合的规模呈多项式。 统计机器学习、集成机器学习等方法的理论基础。 2018/9/16 谭营---机器学习研究及最新进展

机器学习 学科 1983年,R.S. Michalski等人撰写《机器学习:通往人工智能的途径》一书 1986年,Machine Learning杂志创刊 1997年以Tom Mitchell的经典教科书(McGraw Hill Press, 1997)中都没有贯穿始终的基础体系,只不个是不同方法和技术的罗列 机器学习还非常年轻、很不成熟 返回 2018/9/16 谭营---机器学习研究及最新进展

机器学习的主要方法 传统分类 归纳机器学习 解释机器学习 遗传机器学习 连接机器学习 现代分类(1997年,Dietterich) 符号机器学习。 统计机器学习。 集成机器学习。 增强机器学习。 2018/9/16 谭营---机器学习研究及最新进展

学习方法的传统分类 传统上,大致可分为4类: 归纳学习 解释学习 遗传学习 连接学习 2018/9/16 谭营---机器学习研究及最新进展

归纳学习 是从某一概念的分类例子集出发归纳出一般的概念描述。 这是目前研究得最多的学习方法,其学习目的是为了获得新的概念、构造新的规则或发现新的理论。 这种方法要求大量的训练例,而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。 包括:有变型(版本)空间、决策树方法、AQ11算法,一阶Horn子句等 2018/9/16 谭营---机器学习研究及最新进展

解释学习 解释学习(分析学习)是从完善的领域理论出发演绎出有助于更有效地利用领域理论的规则。 其学习目的是提高系统性能,而不是修改领域理论。 它与归纳学习相反,只需要少量的训练例,但要求有完善的领域理论,而且学习效果也与例子表示形式、学习方法(正例学习或反例学习)、概括程度等有关。 2018/9/16 谭营---机器学习研究及最新进展

遗传学习 是通过模拟自然界遗传与变异机制,利用进化论的自然选择原理进行分类和优化。 优点:可以使一些用传统的精确的符号方法无法解决的问题变得易解 缺点:在学习过程中会产生大量数据,如何对这些数据进行挑选和记忆? 2018/9/16 谭营---机器学习研究及最新进展

连接学习 通过以某种形式连接的大量神经元根据训练模式集调整连接和阈值进行学习,这种学习方式就是通常所说的人工神经网络学习,也称为“并行分布式学习”,其出发点是著名的M-P模型。 该方法在50、60年代陷入沉寂,但在80年代解决TSP问题后得到复兴(BP,HNN,etc.)。这得益于隐结点的使用使其突破了早期Perceptron的限制。 优点:在模式识别、语音处理等许多方面已得到成功应用。 缺点:难以处理高层次的符号信息,使得应用范围受到了限制。 返回 2018/9/16 谭营---机器学习研究及最新进展

机器学习方法的现代分类 1997年,Dietterich的分类 符号机器学习 统计机器学习 集成机器学习 增强机器学习 返回 2018/9/16 谭营---机器学习研究及最新进展

符号机器学习 1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习。 1967年Gold证明,这是不可能的实现的。 Samuel将分段划分引入对符号域的数据处理, 形成了一类基于符号数据集合的约简算法,这是现代符号机器学习的基础。 约简:规则长度越短,覆盖对象越多,但是,不能增加对象矛盾。 2018/9/16 谭营---机器学习研究及最新进展

符号机器学习的基础---划分 机器学习的本质是对样本空间的划分。 这需要定义一个等价关系,将样本空间划分为等价类。 2018/9/16 谭营---机器学习研究及最新进展

{(x, y) : a(x)=a(y), x, yU} 符号机器学习的等价关系 定义在给定符号对象集合U上的等价关系a {(x, y) : a(x)=a(y), x, yU} 2018/9/16 谭营---机器学习研究及最新进展

Rough Set理论 Pawlak在1982年提出的一种数学理论,包含了两个方面的内容: 基于roughness的不精确知识表示理论。 Reduct理论与边缘理论。 可以证明:覆盖算法和分治算法与Reduct理论等价。 Reduct理论是符号机器学习的理论基础。 2018/9/16 谭营---机器学习研究及最新进展

Reduct理论的贡献 给出了在结构上“非最小”解的精确数学定义---Reduct。 Core的概念。 根据上述两个概念,引出边缘区域的概念。 2018/9/16 谭营---机器学习研究及最新进展

性质 根据reduct可以建立一个新的信息系统,这个信息系统的所有属性是core。 这个性质对形成不同简洁程度文本有重要的应用。 2018/9/16 谭营---机器学习研究及最新进展

符号机器学习的限制 算法定义在符号域,连续量必须被映射到这样的域上,算法才有效 学习算法本身无法刻画泛化能力,而依赖于与算法本身无关的上述映射 目前,它是数据分析与数据挖掘的基础 返回 2018/9/16 谭营---机器学习研究及最新进展

统计机器学习 算法的泛化能力 Vapnik的有限样本统计理论 线性空间的学习算法(划分) SVM 2018/9/16 谭营---机器学习研究及最新进展

泛化误差 由于问题世界的统计分布未知(如果已知,无需机器学习,Vapnik),解析地计算最小期望风险是不可能的。 机器学习以最小经验风险与期望风险之差为统计基础,称为泛化误差。 泛化能力以此进行估计。 2018/9/16 谭营---机器学习研究及最新进展

泛化能力描述 Duda(1973) Vapnik(1971) 样本集: 泛化关系: 泛化能力描述: 泛化不等式: 样本个数趋近无穷大 有限样本,样本集内部结构(VC维) 泛化关系: 模型与泛化 随机选择样本集的随机变量 样本集、模型与泛化 泛化能力描述: 以概率为1成立 以概率1-成立 泛化不等式: ?(无法指导算法设计) 最大边缘(指导算法设计) 2018/9/16 谭营---机器学习研究及最新进展

“泛化误差界”研究的演变 PAC界(Valiant[1984]) VC维界(Blumer[1989]) 最大边缘(Shawe-Taylor[1998]) 2018/9/16 谭营---机器学习研究及最新进展

最大边缘(Shawe-Taylor[1998]) 这个不等式依赖于边缘M。 贡献:给出了有几何直观的界描述,从而为算法设计奠定基础。 M>0,边缘不能等于零。这意味着,样本集合必须是可划分的。 边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。 2018/9/16 谭营---机器学习研究及最新进展

研究趋势 算法的理论研究已经基本完成, 目前主要集中在下述两个问题上: 泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件? 如何根据领域需求选择核函数,有基本原则吗? 2018/9/16 谭营---机器学习研究及最新进展

有限样本统计理论的优点 所需满足的条件相对较少,尽管需要满足独立同分布,但无需考虑问题世界的先验分布 这意味着,这个理论可以仅以样本集(数据)为基础 2018/9/16 谭营---机器学习研究及最新进展

要求“线性算法”的原因 对计算,非线性算法一般是NP完全的。 对世界认识,只有在某个空间可以描述为线性的世界,人们才能够说,这个世界已被认识。 2018/9/16 谭营---机器学习研究及最新进展

非线性问题的数学方法 寻找一个映射,将非线性问题映射到线性空间,以便其可以在线性空间中线性表述。 例如,牛顿万有引力定律: 映射: 线性表示: 2018/9/16 谭营---机器学习研究及最新进展

在机器学习中的方法 方法:寻找具有一般意义的线性空间 目前,机器学习主要采用两种方法: 整体线性:Hilbert空间 分段线性:在流形意义下的线性子空间 2018/9/16 谭营---机器学习研究及最新进展

线性可分问题 如果一个样本集合是线性可分的,它们一定可以构成两个不相交的闭凸集。 这样,线性可分问题变为计算两个闭凸集的最大边缘问题。 2018/9/16 谭营---机器学习研究及最新进展

线性不可分问题---核函数 可以证明,一定存在一个映射,称为核函数,将在欧氏空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。 2018/9/16 谭营---机器学习研究及最新进展

SVM 线性可分为基础。 给定核函数,如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集,则对这个样本集合的最大边缘可以通过二次规划、代数几何、计算几何等方法获得。由此,可以获得支持向量。 这就是SVM。 2018/9/16 谭营---机器学习研究及最新进展

存在问题 SVM只从存在上解决了划分问题,并没有真正在划分上解决核函数的构造问题。 泛化问题不仅需要解决划分问题,还需要解决最大边缘问题。这意味着,需要在满足线性划分的核函数中选择一个满足最大边缘的核函数(模型选择)。 返回 2018/9/16 谭营---机器学习研究及最新进展

集成机器学习动机(Ensembles) 在形式上与Madline类似,其泛化理论来自PAC的弱分类器理论。 使用多个容易设计的简单PAC弱分类器代替一个较难设计的PAC强分类器。 2018/9/16 谭营---机器学习研究及最新进展

研究背景 [Valiant’84] [Kearns&Valiant’88] [Schapire’89], [Freund’90] introduced theoretical PAC model for studying machine learning [Kearns&Valiant’88] open problem of finding a boosting algorithm [Schapire’89], [Freund’90] first polynomial-time boosting algorithms [Drucker, Schapire&Simard ’92] first experiments using boosting 2018/9/16 谭营---机器学习研究及最新进展

背景 (cont.) [Freund&Schapire ’95] experiments using AdaBoost: introduced AdaBoost algorithm strong practical advantages over previous boosting algorithms experiments using AdaBoost: [Drucker&Cortes ’95] [Schapire&Singer ’98] [Jackson&Cravon ’96] [Maclin&Opitz ’97] [Freund&Schapire ’96] [Bauer&Kohavi ’97] [Quinlan ’96] [Schwenk&Bengio ’98] [Breiman ’96] [ Dietterich’98] continuing development of theory & algorithms: [Schapire,Freund,Bartlett&Lee ’97] [Schapire&Singer ’98] [Breiman ’97] [Mason, Bartlett&Baxter ’98] [Grive and Schuurmans’98] [Friedman, Hastie&Tibshirani ’98] …… 2018/9/16 谭营---机器学习研究及最新进展

集成机器学习 1990年Shapire证明,如果将多个PAC弱分类器集成在一起,它将具有PAC强分类器的泛化能力。 进而,又说明,这类集成后的强分类器具有统计学习理论的基础。 2018/9/16 谭营---机器学习研究及最新进展

弱分类器 如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。 这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。 2018/9/16 谭营---机器学习研究及最新进展

集成 在分类时,采用投票的方式决定新样本属于哪一类。 由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。 2018/9/16 谭营---机器学习研究及最新进展

集成分类器 Classifier ensemble Σαihi hn h2 h1 Input vector Classifier 1 …… Classifier N Combine Classifiers Output 2018/9/16 谭营---机器学习研究及最新进展

为什么吸引人 弱分类器比强分类器设计简单。 有统计学习理论的基础。 典型方法:加权多数算法,Bootstrap, ADABOOST 等。 返回 2018/9/16 谭营---机器学习研究及最新进展

AdaBoost [Freund&Schapire ’97] constructing Dt: given Dt and ht: where: Zt = normalization constant final hypothesis: 返回 2018/9/16 谭营---机器学习研究及最新进展

增强机器学习 增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应 开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题 1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sutton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习 2018/9/16 谭营---机器学习研究及最新进展

目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域 Q学习,动态规划,遗传学习,以及免疫网络都成为实现增强机器学习的有效方法。 返回 2018/9/16 谭营---机器学习研究及最新进展

机器学习面临的挑战 随着应用的不断深入,出现了很多被传统机器学习研究忽视、但非常重要的问题(下面将以医疗和金融为代表来举几个例子) 机器学习正与众多学科领域产生了交叉,交叉领域越多,问题也越多,也正是大有可为处 2018/9/16 谭营---机器学习研究及最新进展

例子1:代价敏感问题 医疗:以癌症诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的 金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的 传统的ML技术基本上只考虑同一代价 如何处理代价敏感性? 在教科书中找不到现成的答案。 2018/9/16 谭营---机器学习研究及最新进展

例子2:不平衡数据问题 医疗:以癌症诊断为例,“健康人”样本远远多于“病人”样本 金融:以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本 传统的ML技术基本上只考虑平衡数据 如何处理数据不平衡性? 在教科书中找不到现成的答案 2018/9/16 谭营---机器学习研究及最新进展

例子3:可理解性问题 医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断” 金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡” 传统的ML技术基本上只考虑泛化不考虑理解 如何处理可理解性? 在教科书中找不到现成的答案 返回 2018/9/16 谭营---机器学习研究及最新进展

机器学习的最新进展 算法驱动(建模与数据分析) 应用驱动 2018/9/16 谭营---机器学习研究及最新进展

算法驱动 海量非线性数据(108-10) 算法的泛化能力考虑 学习结果数据的解释 代价加权的处理方法 不同数据类型的学习方法 返回 2018/9/16 谭营---机器学习研究及最新进展

应用驱动 自然语言分析、、网络与电信数据分析、图像数据分析、金融与经济数据分析、零售业数据分析、情报分析。 Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务:数据流学习、多实例学习(部分放弃独立同分布条件)、Ranking学习。 蛋白质功能分析, DNA数据分析, SNP数据分析 ……. 它们需要使用各种不同方法,解决实际问题。 2018/9/16 谭营---机器学习研究及最新进展

应用驱动机器学习 流形机器学习 半监督机器学习 多实例机器学习 Ranking机器学习 数据流机器学习 图模型机器学习 …… 结束语 2018/9/16 谭营---机器学习研究及最新进展

流形机器学习 很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),PCA是一种方法,但是,只对线性情况有效 流形学习是解决上述问题的非线性方法 2018/9/16 谭营---机器学习研究及最新进展

高微数据的低微表示 线性方法 非线性方法 由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题 PCA (Principal Component Analysis) ICA (Independent Component Analysis) FDA (Fisher Discrimination Analysis) MDS (Multi-Dim Scale analysis) 非线性方法 LLE (Local linear Embeding)(Roweis, Science,2000) Isomap (Tenenbaum, Science, 2000) 由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题 2018/9/16 谭营---机器学习研究及最新进展

机器学习研究及最新进展 2018/9/16 半监督机器学习 在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习 这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分? 2018/9/16 谭营---机器学习研究及最新进展

机器学习研究及最新进展 2018/9/16 多示例机器学习 传统的机器学习中,一个对象有一个描述,而在一些实际问题中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关系的学习就是多示例学习 2018/9/16 谭营---机器学习研究及最新进展

Ranking机器学习 其原始说法是learning for ranking 问题主要来自信息检索,假设用户的需求不能简单地表示为“喜欢”或“不喜欢”,而需要将“喜欢”表示为一个顺序,问题是如何通过学习,获得关于这个“喜欢”顺序的模型。 2018/9/16 谭营---机器学习研究及最新进展

数据流机器学习 在网络数据分析与处理中,有一类问题,从一个用户节点上流过的数据,大多数是无意义的,由于数据量极大,不能全部存储,因此,只能简单判断流过的文件是否有用,而无法细致分析 如何学习一个模型可以完成这个任务,同时可以增量学习,以保证可以从数据流中不断改善(或适应)用户需求的模型 2018/9/16 谭营---机器学习研究及最新进展

研究现状 主要以任务为驱动力,学习方法有待创新 以上这些机器学习方式还处于实验观察阶段,缺乏坚实的理论基础 实际应用效果仍有待研究 2018/9/16 谭营---机器学习研究及最新进展

存在的理论问题 统计类机器学习需要满足独立同分布条件,严厉! 寻找问题线性表示的空间,没有一般的原则。 信息向符号的映射,没有好的方法。 机器学习没有一劳永逸的解决方案。 领域知识与数据分析不可避免。 2018/9/16 谭营---机器学习研究及最新进展

研究趋势 尽管“学习机制”还是研究的动力,然而, “烦恼网络”的危机,使得更为重要的推动力来自“有效利用”信息。 传统领域借用机器学习提高研究水平。 应用驱动的机器学习方法层出不穷。 基于机器学习的数据分析方法成为解决复杂问题的关键之一。 2018/9/16 谭营---机器学习研究及最新进展

结束语 当前,机器学习所面临情况是: 数据复杂、海量,用户需求多样化。 从而, 要求: 需要科学和高效的问题表示,以便将其学习建立在科学的基础上 应用驱动成为必然, 从而针对某个或某类应用给出特定的学习方法将不断涌现 对机器学习的检验问题只能在应用中检验自己 对机器学习的结果的解释, 将逐渐受到重视 2018/9/16 谭营---机器学习研究及最新进展

谢谢! 返回 2018/9/16 谭营---机器学习研究及最新进展