王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465 数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465.

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465 数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465

自我介绍

他们是? Zhaojun WANG 王昭君 王兆军 It’s me!

目录 三位名人 《数理统计》课内容 本课的几个侧重点 不足之处

南开《数理统计》课简介

本课的几个侧重点 统计与数学的区别 统计史及产生的背景 注重统计的应用特点 不过分强调理论 点与点的结合 数表的生成

不足之处 与计算机语言的结合 习题不够丰富 例题的时代感不强 某些内容的欠缺(某些理论的证明、非参、Bayes统计、方差分析等) 某些结果的理论叙述不够严谨

Http:// www.math.nankai.edu.cn/~zjwang 多谢 王兆军 Tel: 022+23498233(O) Email: zjwangnk@126.com Http:// www.math.nankai.edu.cn/~zjwang

统计与数学的区别(一)

统计与数学的区别(二)

统计与数学的区别(三) e

统计与数学的区别(四) 统计学 数 学 出发点 数 据 定义和公理 研究方法 归 纳 演 绎 评价方法 好与坏 对与错

统计与数学的区别(五)

统计与数学的区别(六)

统计与数学的区别(七) 什么是统计?

数据是什么? Data = ¥¥

Science, 2011年2月刊封面

2012年3月29日奥巴马政府投入2亿多美元启动“大数据发展研究计划”(Big Data Research and Development Initiative) 是美国继1993年宣布“信息高速公路计划”后又一重大科技战略部署,标志从商业、学术层面上升到国家战略。

什么是大数据? Wikipedia(维基百科) A term for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies . ) weiki ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)

大数据的特征 Why difficulty? Big data challenges the existing information technologies, management paradigm, statistical and computa- tional sciences. Volume Velocity Variety Value PB—ZB in scale Distributed storage and processing necessary Growing tremendously Data flow Multisource, correlated, heterogeneous Unstructured, unreliable, inconsistent. Total dataset embodies great value Individual or small subset contains less information Value density

2013 18 14 20 1

统计与数学的区别(八) 返回

统计史及某些背景(一) Karl Pearson (1857-1936) Ronald Aylmer Fisher (1890. 2. 17-1962. 7. 29) PL HSU (1910-1970)

统计史及某些背景(二) 统计的起源(史宁中) Fisher 提出的显著性检验(女士品茶) 试验设计(DOE) 充分完备统计量(与Edington的争论) t分布(Student的笔名) 卡方拟合优度检验(G. Mendel) Bayes估计(产品质量检验) 返回

注重统计的应用特点 上届数理统计期未成绩(分析与检验) 死刑数据的列联表分析(茆诗松等) 统计与欺骗(何书元) 回归诊断(韦博成) 非参数统计(Wilcoxon,Mann & Whitney) 抽样调查(Mahalanobis) 吸烟与肺癌(Fisher & Cornfield) SPRT检验(Wilks) 几本参考书(非理论) 返回

不过分强调理论 区间估计只讲枢轴量法 不给出Kolmogorov检验的理论证明 经验分布函数的Bahadur表示不讲证明 略讲次序统计量 不讲U统计量、M估计、L估计、R估计、同变检验、Minimax估计等

理论在应用中的重要性 1883年8月15日,美国物理学家Henry Augustus Rowland(1848-1901)在美国科学促进会年会上发表了一则被誉为是美国科学的独立宣言的演讲《为纯科学呼吁》,文章发表在科学杂志上。

理论在应用中的重要性 他说,“我时常被问及,科学与应用科学究竟何者对世界更重要,为了应用科学,科学本身必须存在,如停止科学的进步,只留意其应用,我们很快就会退化成中国人那样,多少代人以来他们都没有什么进步,因为他们只满足于应用,却从未追问过原理,这些原理就构成了纯科学。中国人知道火药应用已经若干世纪,如果正确探索其原理,就会在获得众多应用的同时发展出化学,甚至物理学。因为没有寻根问底,中国人已远远落后于世界的进步。我们现在只将这个所有民族中最古老、人口最多的民族当成野蛮人。……当其他国家在竞赛中领先时,我们国家(美国)能满足于袖手旁观吗?难道我们总是匍匐在尘土中去捡富人餐桌上掉下的面包屑,并因为有更多的面包屑而认为自己比他人更富裕吗?不要忘记,面包是所有面包屑的来源。” 返回

点与点的结合 拟合优度检验 显著性检验-UMP检验-UMPU检验 区间估计、抽样分布、显著性检验的结合 随机数、模拟的有机结合 返回

数表的生成 本讲义的所有数表均是由Fortran程序生成,且某些数表与传统给出的值有所不同,如W检验统计量的系数表是由IMSL精确求解得到的(与模拟结果一致) 返回

返回

估计 点估计 区间估计 准则 方法 枢轴量法 极限分布法 Bayes估计 无偏性、UMVUE 相合性,ASN、LSE 矩估计、MLE EW算法 返回

UMP,UMPU UMPU 分布、列联表 返回

返回

2009年8月5日

什么是统计? 统计学是收集和分析数据的科学与艺术 (不列颠百科全书) 数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士) 数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松) 返回

统计学的起源(一) 中国在周朝就设有统计官员,称为司 书。设立“司书上士二人,中士四人,府二 人,史二人,徒八人。” 负责 “邦之六典……,以周知入出百物,……,以知田野夫家六畜之数。” (见《周礼·天官·冢宰》)

统计学的起源(二) 《管子·问》中提到65个问,即65个调 查科目,均为管理国家所需要的数据。比 如, “问少壮而未胜甲兵者几何人?” “为一民有几年之食也?” 等等。(平均数、众数?) 返回

女士品茶试验 20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶) 返回

Design of Experiment 乾 坤 震 巽 坎 离 艮 兑 000 001 010 011 100 101 110 111 这是一个最基本的正交表 返回

Fisher与Edington的争论 返回

William Sealey Gosset (1876-1937) 1899年进入Guinees Brewing Company,于1904年发表一篇文章中,说明酵母中的细胞数量的分布是Poisson分布,并不属于K. Pearson偏斜分布中的一员。之后,于1908年在Biometrika上以Student为名发表了t分布(Guiness公司并不允许员工发表文章)。Gosset是K. Pearson与Fisher之间的中间人。 返回

Gregory Mendel (1822-1884) Karl Pearson(1857-1936)

返回

Bayes估计(一) Thomas Bayes (1702-1761)

Bayes估计(二) No. n X MLE Bayes 1 5 0.875 2 20 0.955 3 0.143 4 0.045 返回

2008届数理统计成绩分析(一)

2008届数理统计成绩分析(二)

2008届数理统计成绩分析(三) 普林斯顿大学统计系主任和贝 尔试验室,二战期间,加入武器控制研究办公室(Fire Control Research Office),研究枪炮的瞄准、测距仪与枪炮有关的问题 Exploratory data analysis、FFT、boxplot、steam and leaf plots、robust等 John Tukey –统计界的毕加索 (1915-2000) 返回

死刑数据(一) 被告 死刑 合计 是 否 白人 19 141 160 黑人 17 149 166 36 290 326 数据:美国佛罗里达,1976--1977年凶杀案 结论:白人被判死刑的比例为:19/160=11.9% 黑人被判死刑的比例为:17/166=10.2%

死刑数据(二) 被 告 害 死刑 比例 是 否 白人 19 132 0.126 黑人 9 0.000 11 52 0.175 6 97 9 0.000 11 52 0.175 6 97 0.058 返回 Contingency Table (列联表)

统计与欺骗 有一个人陆续收到一个人的Email告之明天足球比赛的结果,连续五次都预测对了。第六次时他要求你付200块给他以知明天的比赛结果,你说这个人有预测比赛的能力吗? (如果此人是猜的话,连续猜对五场的概率是1/25=0.031) (详见何书元著《概率论与数理统计》2006) 返回

回归诊断 返回

非参数统计(一) Frank Wilcoxon (2 Sept 1892 - 18 Nov 1965) Henry B. Mann (1905-2000)

非参数统计(二) 20世纪40年代,Wilcoxon是美国氰胺公司的化学家,他在进行某项化工实验,发现实验之初当反应发生器并未充分预热时,常常是某个数据要么过大、要么过小,而此时的t检验极易受到这些异常值的影响。他查了许多资料也没有找到相应的解决方法,于是他自己提出了一种基于数据秩的方法,只是其计算非常繁琐。他想:这不是一个化学家应该做的,统计学界早就有人完成了这一工作,但他还是找不到相应的文献。于是,他便文章寄给了Biometrics,希望审稿人告诉他所需要的参考资料,然而,审稿人认为这是一篇原创性的工作,于1945年发表了此文。

非参数统计(三) Wilcoxon与Biometrics的编辑们都不知道,OSU的一位经济学家Henry B. Mann和一位统计学研究生D. Ransom Whitney也在做一个相关的研究,并于1947年发表了一篇结果与Wilcoxon提出的方法类似的文章。 上述两篇文章中无需使用参数就可以处理数据的分布了(这是K. Pearson一再要求的)。 实际上,在西方多数人不知道,20世纪30年代后期,苏联的Kolmogorov与其学生Smirnov已发展了一种不需使用参数的分布比较方法。

非参数统计(四) Andrey N. Kolmogorov-数学界的莫扎特 (1903-1987) 返回

抽样调查(一) 加尔各答市总统学院物理系教授、主任 20世纪20年代到英国师从K. Pearson 和Fisher 1931年成立Indian Statistical Institute 1933年出版Sankhya 1962年Fisher自印度返回澳大利亚的船上去世 Prasanta Chandra Mahalanobis (1893-1972)

抽样调查(二) 20世纪初,当Mahalanobis在铁道公司工作时遇到了如下例子:为检验装在船上准备从孟买运到英国的黄麻的质量,就用一种特殊的工具插入包中,从检测带出的少量黄麻来估计整包的质量。而在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天时常常冻得结成一块。于是,当取样员将刀插入时会发生偏离,而此时所取的样本就不能真正代表总体分布了,这与K. Pearson的指导思想严重不符。 另外,在人口普查时,由于印度人多且普查时间不同,故精度有限。于是,Mahalanobis推断:如果能够收集到一个具有充分代表性的小样本,则可以用它来估计总体特征。 返回

吸烟与肺癌(一) Jerome Cornfield (1912-1979) R. A. Fisher (1890-1962) Jerzy Neyman (1894-1981)

吸烟与肺癌(二) 1958年,Fisher在Nature上发表了两篇文章“Lung cancer and cigarettes?”和“Cancer and smoking”。他认为吸烟会导致肺癌的证据严重不足。 Neyman 也认为将肺癌与吸烟联系起来的研究推理中存在问题。 随着证据的增多,Neyman慢慢地也似乎认可二者间的联系,但Fisher仍强烈反对。

吸烟与肺癌(三) Fisher指出:不通过随机化实验,根本无法证明任何东西。(统计相关性与因果关系是不相同的) 1959年Cornfield与5位来自美国的顶尖癌症专家联合撰写了一篇30页的论文。此文指出:有关证据压倒性地支持“吸烟是人类肺部表皮癌发生率迅速上升的原因之一”。

吸烟与肺癌(四) 原方法:肺癌患者中的吸烟人数大大高于非肺癌患者中吸烟人数。 (有两种方法:追溯性研究(retrospective studies):从一种疾病开始着手,向后看与此病相关的有什么先决条件。其不足是对照组与病例组不匹配;事先研究(prospective studies):事先选定一群人,详细记录他们的吸烟史及疾病情况。其不足是研究是小范围的,结论也许只是针对某个特定群体而言的) Cornfield方法:他们搜集了1958年前不同国家、不同总体所做的30项流行病学研究。 返回

SPRT检验(一) Abraham Wald (1902-1950) Samuel S. Wilks (1906-1964)

SPRT检验(二) 20世纪40年代,Wilks在普林斯顿大学数学系工作,并任华盛顿海军研究局顾问,成立了普林斯顿统计研究小组(SRG-P)。当Theodore W. Anderson还是此小组的研究生时研究了如下课题:由于日本人以随机形态在海岸线上布满地雷,而进攻日本本土日子越来越近,故美国需要找出一种毁坏地雷的有效方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但效果不好。于是,Anderson等人设计一种新方法,但实验数据表明这种方法并不有效。这样就导致美国在日本投下原子弹的原因之一。

SPRT检验(三) Wilks又在哥伦比亚大学组建了第二个统计研究小组(SRG-Pjr),这个小组的成果之一即是提出了与此与此序贯分析(序贯分析当时被列为最高机密,直至战争结束多年后,参加这项研究的专家都不能对外发表论文)。 后来,Abraham Wald通过高度抽象的理论归纳,提出了决策理论。 返回

几本参考书 陈希孺(2000). 数理统计发展简史,湖南科技出版社. Huff, D. (1982) How to Lie with Statisitcs, W. W. Norton & Company. (沈恩杰等译) 陈善林、张浙(1987). 统计发展史,立信会计图书用品社. Folks, J. L. (1981). Ideas in Statistics, John Wiley. Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Sciences in the Twentieth Century, Henry Holt and Company.(邱东译,2005) 返回

拟合优度检验 显著性检验 似然比检验 卡方检验及其极限分布 列联表独立性检验 Kolmogorov检验 返回

显著性检验-优势检验

区间估计、抽样分布、显著性检验 抽样分布 区间估计 显著性检验

随机数与模拟 刘徵(生于公元250年左右 ) 返回