统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:

Slides:



Advertisements
Similar presentations
1. 甚麼是人工智能 ? 甚麼是人工智能 ? 2. 強人工智能 - 弱人工智能 強人工智能 - 弱人工智能 3. 實現人工智能的必要條件 實現人工智能的必要條件 4. 人工智能的例子 人工智能的例子 5. 虛擬真實 虛擬真實 6. 感想 感想.
Advertisements

1 第一章:绪论 什么是信源编码? 为什么要信源编码 / 数据压缩? 为什么可以信源编码 / 数据压缩? 怎样进行信源编码?
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
2 Chp1 知识概述 一、莆田概况 1 、位置 位于北纬 25° ,东经 119° , 背山面海,北依省会福州市, 南邻泉州市。东南靠濒海,与 台湾省隔海相望。 2 、面积 全市陆地面积约为 3781 平 方千米。海域面积 1.1 万平方 千米。
2016年9月8日 2016年9月8日 2016年9月8日 1 Semi-supervised Learning by Sparse Representation Shuicheng Yan Huan Wang Lecturer: Yitao Zhai.
人工智能的昨天、今天和明天 崔 林 中央广播电视大学工学院.
绿 色 植 物 在 家 庭 居 室 空 气 污 染 控 制 中 的 作 用 小组成员:.
学校特色建设与教师专业发展 上海市第八中学 卢起升 2014年12月.
Some theoretical notes on boosting
提纲 主要参考书目 AI的基础及萌芽 AI的创立及发展 AI的主要研究范围 国外著名的AI研究机构 AI在中国 AI的最新动态
第一章 会计信息系统 第一节 计算机会计概述.
目錄 服務地點 南寮 世光教養院 飛鳳山 長安養老院 尖石國小 內灣 大華停車場 上智國小 二重國中 班級 領隊教師 參與人數 (人次)
研究所升學考試 準備策略 蘇武楨.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
图书馆订购的纸质外文期刊目录 F:经济 H:语言、文字 I:文学 O:数理科学和化学 Z:综合性图书 T:工业技术 TB:一般工业技术
老子的素朴 厦门大学计算机科学系 庄朝晖.
學校護理專業發展數據說~ 學校護理的數據迷雲
完成碩士論文的方法- 如果讓我重做一次研究生
蔡文祥 終身講座教授 於交大資工系(2015/03/11) (共30頁)
关于在宝钢全体党员中开展“学党章党规、 学系列讲话,做合格党员”学习教育的 实施方案
2013 澎湖自助旅行講座 澎湖,其實就是一片海洋 主辦:沿著菊島旅行 協辦: 台北澎湖同鄉會、台中澎湖同鄉會、高雄澎湖同鄉會
寫教案—教學設計的格式與規範 林 進 材 台南大學教育系教授
資料探勘(Data Mining)及其應用之介紹
第八章 心理差异与因材施教 第一节 智力因素的个别差异与教育.
欢 迎 您 ! 荣县电大 毕忠权.
國立勤益科技大學 電資學院 院長候選人 蕭鳳翔 2010年4月29日.
第1章 資訊管理研究概論.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
北京铁路电气化学校 心理健康 第四章 学会学习 终身学习 知识点八 实践是培养技能的重要途径 制作人:陈峻殊 德育教研组.
股市不傳之秘 甘氏矩陣圖/價格推算 簡介、基礎學習步驟 1、學習觀念 2、基礎看圖法 A.大數推算 B.基礎角度線推算.
做最好的自己 ——七(6)班主题班会.
課程:高等微處理機設計專題(0309) 授課老師:陳友倫 老師 連絡信箱:
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
分享一篇佳作:Cognitive Control
丁 承 國立交通大學經營管理研究所教授 成大統計68級 民國103年6月14日
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
上节课内容总结 统计推断基本概念 CDF估计: 统计函数估计 统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验
文字探勘與知識工程 Text Mining & Knowledge Engineering
现代信息检索 Modern Information Retrieval
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
The Concept of Fuzzy Theory
VISP+MS 国际高校访问学生 及统计理学硕士项目
(第七十五期) 理论与交叉研究部&磁共振基础研究部联合邀请报告第1期
深度学习 (Deep Learning).
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
本章內容 資訊與資訊科技 資訊科技的內部應用 資訊科技的外部應用 資訊科技對組織設計的影響 組織控制與資訊科技 Chapter 9
近期科研汇报 报告人: 纪爱兵.
第9章 企業e化實例 9.1 企業e化之注意事項  9.1 企業e化之注意事項  
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
第十一章 管理知識.
实验数据处理方法 王永刚.
「導論」教學實施規劃 吳正己 國立台灣師範大學 資訊教育研究所.
引導教學實務工作的知識根基 從三個面向來思考: 1.教學中的基礎知識是指什麼? 哪些領域的知識最為關鍵? 2.教師如何實踐及運用這些知識?
通 知 一、一百零二學年度第一次博士班資格考日期為103年1 月22日、23日、1月24日(星期三、四、五)。
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
IEEE Computer Society 長亨文化事業有限公司.
聖方濟各英文小學 升中派位結果(2002/2004) 入讀英文中學:95.9% 第一組別(Band 1)學生:80.2%
R與資料探勘(data mining)簡介
第七章 知識管理.
量子信息 qubit与光速的平方c2 ——信息学基础研究(理论探讨)
数据挖掘管理系统规范说明 现状简介 强度挖掘(Intension Mining) I-MIN过程模型(Process Model)
关于研究的若干问题 陈熙霖.
轉換成二進位、八進位及十六進位 = ( ) = ( ) = ( )16.
WiFi is a powerful sensing medium
本教學投影片係屬教科書著作之延伸,亦受著作權 法之保護。
授課教師:統計系余清祥 日期:2008年6月30日 第一週:緒論 課程下載:
Gaussian Process Ruohua Shi Meeting
《神经网络与深度学习》 第10章 模型独立的学习方式
Presentation transcript:

卿来云 中国科学院研究生院信息学院 lyqing@gucas.ac.cn / lyqing@jdl.ac.cn 统计学习基础 卿来云 中国科学院研究生院信息学院 lyqing@gucas.ac.cn / lyqing@jdl.ac.cn 统计对研究的意义: (1)工程统计:如“本文提出了一种新的算法,比已有算法的性能有显著提高” 用到假设检验 同样在评价一些药的疗效上也有类似问题 (2)机器学习:数据多、维数高 学习一些模型 模型选择:对相同的数据,可以用不同的模型来解释,到底哪个模型最合适? 夏季学习课程 统计不是万能的,没有统计是万万不能的 (至少应具备一些统计的基本概率或知识,现在小学一年级的数学中已有统计内容) 学习三要素: 载体:结构 通用灵活小结构-->组合成大结构(模型复杂性、AdaBoost) 价值观:有限样本兼顾样本与结构(兼顾现在与未来、灵活 vs. 可靠) 学习效率/执行:如迭代… 概念要清楚

概率 vs. 统计 概率:研究随机事件出现的可能性的数学分支,描述非确定性(Uncertainty)的正式语言,是统计推断的基础 概率: 一个事件或事件集合出现的可能性 基本问题:给定以一个数据产生过程,则输出的性质是什么 统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲 统计量:一个用以描述样本或总体性质的数值,如均值或方差 基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息 为什么要统计? (1) 概率:概率并不是来源于noise,而是这个世界本身就是不确定的 不确定性 统计学习 如投篮,只能说命中的概率,无法确定某一次投篮是否一定会中,不同水平表现为投中的概率不同 某一次的结果是从一个分布中采样 (2)统计:有些时候不可能精确数数,如人口等不停在变化 统计物理学:宏观物质系统是大量微观例子的集体表现,宏观物理量是微观物理量的统计平均值,如布朗运动(温度、压强…) 统计中很多概率就是从统计物理、统计化学中来的,如熵

概率 vs. 统计 概率 数据产生过程 观测到的数据 统计推断 数据产生过程 通过采样, 得到样本(观测到的数据) 数据产生过程 通过采样, 得到样本(观测到的数据) 我们先讲采样(概率),然后再学统计推断 统计推断

统计学习 统计学 ≈ 根据数据进行推理的学科 统计学习 ≈多元统计分析 + 计算统计学 多元统计分析 ≈ 基于一个多元变量数据集,预测函数值 计算统计学 ≈ 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法 数据挖掘 ≈ 研究数据分析,尤其是大数据量/复杂的数据集

例:人脸形状 (随机事件、概率与统计学习) ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy

统计学习的基本问题 有监督/无监督学习 增强学习 模型选择 有监督学习:回归、分类 无监督学习:概率密度估计、聚类、降维 模型评价:损失函数 复杂性 vs. 推广性 统计对计算机专业学生的意义: (1)工程统计:如“本文提出了一种新的算法,比已有算法的性能有显著提高” 用到假设检验 同样在评价一些药的疗效上也有类似问题 (2)机器学习:数据多、维数高 数据挖掘:学习一些模型 模型选择:对相同的数据,可以用不同的模型来解释,到底哪个模型最合适? 夏季学习课程 统计不是万能的,没有统计是万万不能的 (至少应具备一些统计的基本概率或知识,现在小学一年级的数学中已有统计内容) 学习三要素: 载体:结构 通用灵活小结构-->组合成大结构(模型复杂性、AdaBoost) 价值观:有限样本兼顾样本与结构(兼顾现在与未来、灵活 vs. 可靠) 学习效率/执行:如迭代… 概念要清楚

课程目的 为计算机专业的学生快速提供广泛的概率和统计背景 为学习其他课程打好统计学基础 概率 统计 统计学习 机器学习 数据挖掘 模式识别 人工智能 …

数学基础的重要性 研究数据分析必须打好概率和统计基础 Using fancy tools like neural nets, boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.

教材/参考书 [Wasserman] Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference, Springer Press, 2004 主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述 Chp1-13, Chp20,Chp23-24 [HTF] Trevor Hastie, Robert Tibshirani, Jerome Friedman著,范明,柴玉梅,昝红英译,《统计学习基础—数据挖掘、推理与预测》, 电子工业出版社,2004 统计学习部分的主要教材:主要从机器学习的角度讲述 Chp1-7 [CB] George Casella and Roger L. Berger,Statistical Inference,机械工业出版社,2002 详尽的统计推断教材:可以作为[Wasserman]一书的补充 Chp1-10

预修课程 高等数学 线性代数 概率:有一定概率基础 可复习任一本科概率论教材 盛骤 谢式千 潘承毅,《概率论》, (浙江大学)编, 高等教育出版社

课程内容(1) 第一部分:概率基础知识 第二部分:统计基础知识 概率理论 随机变量及其概率分布 常用的概率分布 多元随机变量 概率不等式和收敛性 第二部分:统计基础知识 统计基本知识 非参数估计、Bootstrap、Jackknife 参数估计 假设检验

课程内容(2) 第三部分:统计学习基本模型及理论 第四部分:随机计算 统计学习概述 线性回归 概率密度估计 核方法 统计判决理论 模型选择和模型评估 第四部分:随机计算 采样、MCMC (Monte Carlo Markov Chain)

相关会议、刊物 会议 刊物 Machine Learning (ML) Internet Conference on Machine Learning KDD (Internet Conference on Knowledge Discovery and Data Mining) NIPS (Neural Information Processing Systems Conference) IJCNN ( Internet Joint Conference on Neural Networks) Artificial Intelligence and Machine Learning Conference Computational Learning Theory (COLT) … 刊物 Machine Learning (ML) Journal of Machine Learning Research Annals of Statistics Data Mining and Knowledge Discovery IEEE-KDE IEEE-PAMI Artificial Intelligence Journal of Artificial Intelligence Research Computational Intelligence Neural Computation IEEE-NN Research, Information and Computation …

其他信息 助教:杨涛 ssss104@gmail.com 课件网址 http://www.jdl.ac.cn/user/lyqing/StatLearning/StatLearning.htm

作业和考试 作业:40% 考试:闭卷 非编程作业20%、编程作业(包括上机实验作业)20% 每次作业留1-2周时间 请按时交作业,鼓励讨论,但NO COPY 考试:闭卷 期末考试:60%

其他 课前预习 课后复习 讨论 课堂上预告下节课内容 预习教材相应章节或相应的补充材料 复习教材和课件,适当阅读课外材料 下节课开始前,对上节课的内容都已经掌握 讨论 鼓励讨论:学得更快/更多、学习兴趣更高 先独立解决问题,然后比较和讨论,最后提交的答案是自己的理解 编写程序时,可以利用别人的代码,但需注明出处及自己的工作

作业 从日常生活、学习或工作中找出1~2个与统计相关的有趣问题