(Pervasive Machine Learning)

Slides:



Advertisements
Similar presentations
1 消費貸款及建築貸款統計表 填報說明 中央銀行經濟研究處 99 年 12 月 9 日. 2 壹、大綱 一、項目定義 二、填報常見錯誤 三、與其他單位報表之關係 四、填報注意事項 五、資料追溯修正注意事項 貳、問題與回答.
Advertisements

国内外著名搜索引擎. 目录  国内搜索引擎 国内搜索引擎  中文导航站点及搜索引擎指南 中文导航站点及搜索引擎指南  国外搜索引擎 国外搜索引擎.
混合型多示例学习算法 张敏灵 周志华 南京大学计算机软件新技术国家重点实验室 2003 年 11 月.
努力创建学习型党组织 莲都区委学校 刘宏华. 内容提纲 一、学习的含义。 二、学习型组织内涵。 三、建设学习型党组织的原则和要求。 主要参考书目: 《第五项修炼》,彼得 · 圣吉,中信出 版社, 2010 年 5 月第 6 次印刷。
高级服务器设计和实现 1 —— 基础与进阶 余锋
项目十二 Internet 网络应用  项目情景引入  项目成果展示  项目任务分析  完成任务  项目总结  项目实战练习.
机器学习及其挑战 周志华 南京大学软件新技术国家重点实验室
计算机网络教程 任课教师:孙颖楷.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
國立交通大學 電機資訊學士班 報告人:黃乙白副教授 (副主任).
第八章 大学生创业财务专题 熊凌云
行銷管理 指導老師: 蕭櫓 博士 題 目 : Google 企業巨擘 組 别 : 第十二組 組 員 : 楊順發、康家菱 方復權、林佳男
受過蒙特梭利啟蒙教育而成為成功人物的國際名人
正修科技大學典範人物專訪 寫作徵文比賽實施要點
证券投资技术分析.
第 8 课 美国经济的发展.
实用操作系统概念 张惠娟 副教授 1.
人工智能技术导论 廉师友编著 西安电子科技大学出版社.
中国药物GCP检查 国家食品药品监督管理局药品认证管理中心         李见明         北京 国家食品药品监督管理局药品认证管理中心.
数据仓库与数据挖掘实验.
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
施耐德电气(中国)投资有限公司 运动控制部技术经理 李幼涵 高级工程师
                                                                                                                                                                
机器学习研究进展 周志华 南京大学计算机软件新技术国家重点实验室.
品牌介紹 四 視覺傳達 一B 4000W007李依軒 4000W006許奕柔.
R in Enterprise Environment 企业环境中的R
心臟的構造與功能 鳳新高中 王美玲.
中国科学技术大学 肖 明 军 《网络信息安全》 中国科学技术大学 肖 明 军
存储系统.
工业机器人技术基础及应用 主讲人:顾老师
数 控 技 术 华中科技大学机械科学与工程学院.
Introduction to AI and ML
2018 北京大学汇丰商学院 日期:
2018 北京大学汇丰商学院 日期:
2012级微电子系飞跃讲座.
数据挖掘工具性能比较.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
湖南大学-信息科学与工程学院-计算机与科学系
WSDM见闻 程龚.
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
混合绘制 2019/4/5 Visual Analytics Group | CAD&CG国家重点实验室.
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
運動競賽制度 授課教師:鄭俊傑副教授.
Three stability circuits analysis with TINA-TI
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
中文题名 介绍/亮点 研究方法 结果/讨论 结论 作者1 1*,作者2 1,2,作者3 2
超越自然还是带来毁灭 “人造生命”令全世界不安
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
热力学与统计物理 金晓峰 复旦大学物理系 /5/1.
获奖类别: 获奖题目: 获奖学生: 指导教师: 研究内容:(400~500字,2~3幅插图)
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
双语例句搜索 句库+巨酷 Web: Beijing 2008.
SIAM全文电子期刊数据库国际站使用指南
人工智能 制作人:蔡燊林 张恩玮.
基于最大margin的决策树归纳 李 宁.
榮譽學生 課業輔導小老師 教學卓越計畫工讀金 陳悅生 教務長
第五讲 金融证券化.
工业机器人技术基础及应用 主讲人:顾老师
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
SIAM全文电子期刊数据库国际站使用指南
材料化学工程国家重点实验室 学术报告 Brief Introduction: 报告题目:Wetting at the Nano-Scale
我们能够了解数学在现实生活中的用途非常广泛
金融支持精准扶贫 基于激励机制的一个设计 李鑫 刘乾坤 中国人民银行绵阳市中心支行.
第十七讲 密码执行(1).
工业机器人技术基础及应用 主讲人:顾老师
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
跑壘訓練與戰術應用 授課講師:林郁捷.
Presentation transcript:

(Pervasive Machine Learning) 普适机器学习 (Pervasive Machine Learning) 周志华 http://cs.nju.edu.cn/people/zhouzh/ Email: zhouzh@nju.edu.cn 南京大学计算机软件新技术国家重点实验室

典型任务:预测(例如:天气预报) 机器学习 机器学习是人工智能的核心研究领域之一 经典定义:利用经验改善系统自身的性能 任何一个没有学习能力的系统都很难被认为是一个真正的智能系统 经典定义:利用经验改善系统自身的性能 随着该领域的发展,主要做智能数据分析 并已成为智能数据分析技术的源泉之一 典型任务:预测(例如:天气预报)

机器学习与数据挖掘 数据挖掘 数据分析技术 数据管理技术 机器学习 数据库

机器学习的重要性 …… 工业过程控制 信息安全 遥感信 息处理 机器人 …… 生物 信息学 计算 金融学 分子 生物学 行星 地质学 机 器 学 习 美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展

机器学习的重要性 美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展

例子1:网络安全 如何检测? 入侵检测: …… …… 历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现…… 对当前访问模式分类 是否是入侵?是何种入侵? 这是一个典型的机器学习问题 常用技术: 神经网络 决策树 支持向量机 贝叶斯分类器 k近邻 序列分析 聚类 …… ……

例子2:生物信息学 常用技术: 神经网络 支持向量机 隐马尔可夫模型 贝叶斯分类器 k近邻 决策树 序列分析 聚类 …… ……

例子3:搜索引擎 Google的成功,使得Internet搜索引擎成为一个新兴的产业 不仅有众多专营搜索引擎的公司出现(例如专门针对中文搜索的就有慧聪、百度等),而且Microsoft等巨头也开始投入巨资进行研发 Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin提出的PageRank算法 机器学习技术正在支撑着各类搜索引擎(尤其是贝叶斯学习技术)

美国的PAL计划 DARPA 2003年开始启动PAL(Perceptive Assistant that Learns)计划 5年期,首期(1-1.5年)投资2千9百万美元 以机器学习为核心的计划(涉及到AI的其他分支,如知识表示和推理、自然语言处理等);包含2个子计划 目标: “is expected to yield new technology of significant value to the military, business, and academic sectors” “develop software that will help decision-makers manage their complex worlds of multiple simultaneous tasks and unexpected events”

美国的PAL计划:RADAR子计划 RADAR (Reflective Agents with Distributed Adaptive Reasoning),承担单位为CMU,首期7百万美元 目标:“the system will help busy managers to cope with time-consuming tasks” “RADAR must learn by interacting with its human master and by accepting explicit advice and instruction”

美国的PAL计划:CALO子计划(1) CALO (Cognitive Agent that Learns and Observes),承担单位为SRI,首期2千2百万美元 除SRI外,这个子计划的参加单位有20家: Boeing, CMU, Dejima Inc., Fetch Tech Inc., GATech, MIT, Oregon HSU, Stanford, SUNY-Stony Brook, UC Berkeley, UMass, UMich, UPenn, Rochester, USC, UT Austin, UW, Yale, … CALO无疑是PAL中更核心的部分

美国的PAL计划:CALO子计划 (2) 目标: “the name CALO was inspired by the Latin word ‘calonis’, which means ‘soldier’s assistant’” “the CALO software, which will learn by working with and being advised by its users, will handle a broad range of interrelated decision-making tasks … It will have the capability to engage in and carry out routine tasks, and to assist when the unexpected happens” 从CALO的目标来看,DARPA已经开始把机器学习技术的重要性放到了国家安全的角度来考虑

美国的PAL计划:CALO子计划(3)

历史回顾(1) 下述事件(大致)标志着机器学习正式成为一个学科 1983年,R.S. Michalski等人撰写《机器学习:通往人工智能的途径》一书 1986年,Machine Learning杂志创刊 与人工智能乃至计算机科学中很多其他分支学科相比,机器学习还非常年轻、很不成熟 以Tom Mitchell的经典教科书(McGraw Hill出版社,1997)为例,很难看到基础学科(例如数学、物理学)教科书中那种贯穿始终的体系,也许会让人感到这不过是不同方法和技术的堆砌

历史回顾(2) 主要范式的发展: 80年代中叶以前:符号主义,代表:ILP 80年代中叶至90年代初:连接主义,代表:NN 受到传统人工智能研究的深刻影响,以逻辑推理为基础 80年代中叶至90年代初:连接主义,代表:NN 对传统人工智能的批评:“看上去漂亮,但解决不了实际问题” 对上述批评,AI的不同分支学科实际上都做出了自己的回应,ML的回应是连接主义受到重视 NN并不漂亮(至少在理论体系上远远没有ILP那么漂亮),但解决了很多实际问题

历史回顾(3) 90年代中叶至今:统计学习,代表:SVM 现在:? NN虽然解决了不少问题,但解决问题时的“试错性”引来了“trick”的批评 作为回应,统计学习开始占据支配地位。虽然SVM仍然有“试错性”,但毕竟在理论基础上比NN漂亮得多(实际上,统计学习与连接主义一脉相承) 现在:? 统计学习并不是万能的,有很多问题不能解决(或不能很好地解决),例如结构化数据的学习 作为回应,以逻辑为基础的符号主义与统计学习的结合开始受到重视

似乎的趋势—“普适机器学习” 从主要范式的发展可以看出,ML实际上是一个应用驱动的学科,其根本的驱动力是“更多、更好地解决实际问题” 由于近20年的飞速发展,机器学习已经具备了一定的解决实际问题的能力,似乎逐渐开始成为一种基础性、透明化的“支持技术、服务技术” 基础性:在众多的学科领域都得以应用(“无所不在”) 透明化:用户看不见机器学习,看见的是防火墙、生物信息、搜索引擎;(“无所不在”) “机器更好用了”(正如CALO的一些描述:“you won’t leave home without it”;”embodied as a software environment that transcends workstations, PDA’s, cell phones, …”)

挑战与机遇 作为支持和服务技术的“普适机器学习”带来了挑战和机遇: 出现了很多被传统ML研究忽视、但非常重要且尚无好的解决方案的问题(下面将以医疗和金融为代表来举几个例子) ML支持和服务的学科领域越多,新问题越多 ML与众多学科领域产生了交叉,而交叉领域正是大有可为处

例子1:代价敏感 医疗:以乳腺癌诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的 金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的 传统的ML技术基本上只考虑同一代价 如何处理代价敏感性? 在教科书中找不到现成的答案,例如: Tom Mitchell, Machine Learning, McGraw-Hill, 1997 Nils J. Nilsson, Introduction to Machine Learning, draft 1996 - 2004

例子2:不平衡数据 医疗:以乳腺癌诊断为例,“健康人”样本远远多于“病人”样本 金融:以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本 传统的ML技术基本上只考虑平衡数据 如何处理数据不平衡性? 在教科书中找不到现成的答案

例子3:可理解 医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断” 金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡” 传统的ML技术基本上只考虑泛化不考虑理解 如何处理可理解性? 在教科书中找不到现成的答案

走向普适机器学习 把机器学习真正当成一种支持技术、服务技术,考虑不同学科领域对机器学习的需求,找出其中具有共性的、必须解决的问题,并进而着手研究 一方面可以促进和丰富ML本身的发展,另一方面可以促进 使用ML技术的学科领域本身的发展 作为“应用基础”,与“ML应用”有根本的区别: 基础性:不是直接做应用,而是做“更广泛的应用”或“更成功的应用”所需要的方法和技术 广泛性:重点不是去解决单一应用所面临的问题,而是要解决众多应用领域所面临的共性问题

致谢 应明生教授:与基础科学教科书的比较 王珏教授: 多次富有启发性的讨论

请各位专家 批评指正!