Presentation is loading. Please wait.

Presentation is loading. Please wait.

王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465 数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465.

Similar presentations


Presentation on theme: "王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465 数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465."— Presentation transcript:

1 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465
数理统计课简介 王兆军 南开大学统计研究院 天津,300071

2 自我介绍

3 他们是? Zhaojun WANG 王昭君 王兆军 It’s me!

4 目录 三位名人 《数理统计》课内容 本课的几个侧重点 不足之处

5

6

7

8

9

10

11 南开《数理统计》课简介

12 本课的几个侧重点 统计与数学的区别 统计史及产生的背景 注重统计的应用特点 不过分强调理论 点与点的结合 数表的生成

13 不足之处 与计算机语言的结合 习题不够丰富 例题的时代感不强 某些内容的欠缺(某些理论的证明、非参、Bayes统计、方差分析等)
某些结果的理论叙述不够严谨

14

15 Http:// www.math.nankai.edu.cn/~zjwang
多谢 王兆军 Tel: (O)

16 统计与数学的区别(一)

17 统计与数学的区别(二)

18 统计与数学的区别(三) e

19 统计与数学的区别(四) 统计学 数 学 出发点 数 据 定义和公理 研究方法 归 纳 演 绎 评价方法 好与坏 对与错

20 统计与数学的区别(五)

21 统计与数学的区别(六)

22 统计与数学的区别(七) 什么是统计?

23 数据是什么? Data = ¥¥

24 Science, 2011年2月刊封面

25

26 2012年3月29日奥巴马政府投入2亿多美元启动“大数据发展研究计划”(Big Data Research and Development Initiative)
是美国继1993年宣布“信息高速公路计划”后又一重大科技战略部署,标志从商业、学术层面上升到国家战略。

27

28 什么是大数据? Wikipedia(维基百科)
A term for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies . ) weiki ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)

29 大数据的特征 Why difficulty? Big data challenges the existing information technologies, management paradigm, statistical and computa- tional sciences. Volume Velocity Variety Value PB—ZB in scale Distributed storage and processing necessary Growing tremendously Data flow Multisource, correlated, heterogeneous Unstructured, unreliable, inconsistent. Total dataset embodies great value Individual or small subset contains less information Value density

30

31 2013 18 14 20 1

32 统计与数学的区别(八) 返回

33 统计史及某些背景(一) Karl Pearson
( ) Ronald Aylmer Fisher ( ) PL HSU ( )

34 统计史及某些背景(二) 统计的起源(史宁中) Fisher 提出的显著性检验(女士品茶) 试验设计(DOE)
充分完备统计量(与Edington的争论) t分布(Student的笔名) 卡方拟合优度检验(G. Mendel) Bayes估计(产品质量检验) 返回

35 注重统计的应用特点 上届数理统计期未成绩(分析与检验) 死刑数据的列联表分析(茆诗松等) 统计与欺骗(何书元) 回归诊断(韦博成)
非参数统计(Wilcoxon,Mann & Whitney) 抽样调查(Mahalanobis) 吸烟与肺癌(Fisher & Cornfield) SPRT检验(Wilks) 几本参考书(非理论) 返回

36 不过分强调理论 区间估计只讲枢轴量法 不给出Kolmogorov检验的理论证明 经验分布函数的Bahadur表示不讲证明 略讲次序统计量
不讲U统计量、M估计、L估计、R估计、同变检验、Minimax估计等

37 理论在应用中的重要性 1883年8月15日,美国物理学家Henry Augustus Rowland( )在美国科学促进会年会上发表了一则被誉为是美国科学的独立宣言的演讲《为纯科学呼吁》,文章发表在科学杂志上。

38 理论在应用中的重要性 他说,“我时常被问及,科学与应用科学究竟何者对世界更重要,为了应用科学,科学本身必须存在,如停止科学的进步,只留意其应用,我们很快就会退化成中国人那样,多少代人以来他们都没有什么进步,因为他们只满足于应用,却从未追问过原理,这些原理就构成了纯科学。中国人知道火药应用已经若干世纪,如果正确探索其原理,就会在获得众多应用的同时发展出化学,甚至物理学。因为没有寻根问底,中国人已远远落后于世界的进步。我们现在只将这个所有民族中最古老、人口最多的民族当成野蛮人。……当其他国家在竞赛中领先时,我们国家(美国)能满足于袖手旁观吗?难道我们总是匍匐在尘土中去捡富人餐桌上掉下的面包屑,并因为有更多的面包屑而认为自己比他人更富裕吗?不要忘记,面包是所有面包屑的来源。” 返回

39 点与点的结合 拟合优度检验 显著性检验-UMP检验-UMPU检验 区间估计、抽样分布、显著性检验的结合 随机数、模拟的有机结合 返回

40 数表的生成 本讲义的所有数表均是由Fortran程序生成,且某些数表与传统给出的值有所不同,如W检验统计量的系数表是由IMSL精确求解得到的(与模拟结果一致) 返回

41 返回

42 估计 点估计 区间估计 准则 方法 枢轴量法 极限分布法 Bayes估计 无偏性、UMVUE 相合性,ASN、LSE 矩估计、MLE
EW算法 返回

43 UMP,UMPU UMPU 分布、列联表 返回

44 返回

45 2009年8月5日

46 什么是统计? 统计学是收集和分析数据的科学与艺术
(不列颠百科全书) 数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士) 数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松) 返回

47 统计学的起源(一) 中国在周朝就设有统计官员,称为司 书。设立“司书上士二人,中士四人,府二
人,史二人,徒八人。” 负责 “邦之六典……,以周知入出百物,……,以知田野夫家六畜之数。” (见《周礼·天官·冢宰》)

48 统计学的起源(二) 《管子·问》中提到65个问,即65个调 查科目,均为管理国家所需要的数据。比 如, “问少壮而未胜甲兵者几何人?”
“为一民有几年之食也?” 等等。(平均数、众数?) 返回

49

50 女士品茶试验 20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶) 返回

51 Design of Experiment 乾 坤 震 巽 坎 离 艮 兑 000 001 010 011 100 101 110 111
这是一个最基本的正交表 返回

52 Fisher与Edington的争论 返回

53 William Sealey Gosset (1876-1937)
1899年进入Guinees Brewing Company,于1904年发表一篇文章中,说明酵母中的细胞数量的分布是Poisson分布,并不属于K. Pearson偏斜分布中的一员。之后,于1908年在Biometrika上以Student为名发表了t分布(Guiness公司并不允许员工发表文章)。Gosset是K. Pearson与Fisher之间的中间人。 返回

54 Gregory Mendel ( ) Karl Pearson( )

55 返回

56 Bayes估计(一) Thomas Bayes ( )

57 Bayes估计(二) No. n X MLE Bayes 1 5 0.875 2 20 0.955 3 0.143 4 0.045 返回

58 2008届数理统计成绩分析(一)

59 2008届数理统计成绩分析(二)

60 2008届数理统计成绩分析(三) 普林斯顿大学统计系主任和贝 尔试验室,二战期间,加入武器控制研究办公室(Fire Control Research Office),研究枪炮的瞄准、测距仪与枪炮有关的问题 Exploratory data analysis、FFT、boxplot、steam and leaf plots、robust等 John Tukey –统计界的毕加索 ( ) 返回

61 死刑数据(一) 被告 死刑 合计 白人 19 141 160 黑人 17 149 166 36 290 326 数据:美国佛罗里达, 年凶杀案 结论:白人被判死刑的比例为:19/160=11.9% 黑人被判死刑的比例为:17/166=10.2%

62 死刑数据(二) 被 告 害 死刑 比例 是 否 白人 19 132 0.126 黑人 9 0.000 11 52 0.175 6 97
9 0.000 11 52 0.175 6 97 0.058 返回 Contingency Table (列联表)

63 统计与欺骗 有一个人陆续收到一个人的 告之明天足球比赛的结果,连续五次都预测对了。第六次时他要求你付200块给他以知明天的比赛结果,你说这个人有预测比赛的能力吗? (如果此人是猜的话,连续猜对五场的概率是1/25=0.031) (详见何书元著《概率论与数理统计》2006) 返回

64 回归诊断 返回

65 非参数统计(一) Frank Wilcoxon (2 Sept 1892 - 18 Nov 1965) Henry B. Mann
( )

66 非参数统计(二) 20世纪40年代,Wilcoxon是美国氰胺公司的化学家,他在进行某项化工实验,发现实验之初当反应发生器并未充分预热时,常常是某个数据要么过大、要么过小,而此时的t检验极易受到这些异常值的影响。他查了许多资料也没有找到相应的解决方法,于是他自己提出了一种基于数据秩的方法,只是其计算非常繁琐。他想:这不是一个化学家应该做的,统计学界早就有人完成了这一工作,但他还是找不到相应的文献。于是,他便文章寄给了Biometrics,希望审稿人告诉他所需要的参考资料,然而,审稿人认为这是一篇原创性的工作,于1945年发表了此文。

67 非参数统计(三) Wilcoxon与Biometrics的编辑们都不知道,OSU的一位经济学家Henry B. Mann和一位统计学研究生D. Ransom Whitney也在做一个相关的研究,并于1947年发表了一篇结果与Wilcoxon提出的方法类似的文章。 上述两篇文章中无需使用参数就可以处理数据的分布了(这是K. Pearson一再要求的)。 实际上,在西方多数人不知道,20世纪30年代后期,苏联的Kolmogorov与其学生Smirnov已发展了一种不需使用参数的分布比较方法。

68 非参数统计(四) Andrey N. Kolmogorov-数学界的莫扎特 ( ) 返回

69 抽样调查(一) 加尔各答市总统学院物理系教授、主任 20世纪20年代到英国师从K. Pearson 和Fisher
1931年成立Indian Statistical Institute 1933年出版Sankhya 1962年Fisher自印度返回澳大利亚的船上去世 Prasanta Chandra Mahalanobis ( )

70 抽样调查(二) 20世纪初,当Mahalanobis在铁道公司工作时遇到了如下例子:为检验装在船上准备从孟买运到英国的黄麻的质量,就用一种特殊的工具插入包中,从检测带出的少量黄麻来估计整包的质量。而在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天时常常冻得结成一块。于是,当取样员将刀插入时会发生偏离,而此时所取的样本就不能真正代表总体分布了,这与K. Pearson的指导思想严重不符。 另外,在人口普查时,由于印度人多且普查时间不同,故精度有限。于是,Mahalanobis推断:如果能够收集到一个具有充分代表性的小样本,则可以用它来估计总体特征。 返回

71 吸烟与肺癌(一) Jerome Cornfield (1912-1979) R. A. Fisher (1890-1962)
Jerzy Neyman ( )

72 吸烟与肺癌(二) 1958年,Fisher在Nature上发表了两篇文章“Lung cancer and cigarettes?”和“Cancer and smoking”。他认为吸烟会导致肺癌的证据严重不足。 Neyman 也认为将肺癌与吸烟联系起来的研究推理中存在问题。 随着证据的增多,Neyman慢慢地也似乎认可二者间的联系,但Fisher仍强烈反对。

73 吸烟与肺癌(三) Fisher指出:不通过随机化实验,根本无法证明任何东西。(统计相关性与因果关系是不相同的)
1959年Cornfield与5位来自美国的顶尖癌症专家联合撰写了一篇30页的论文。此文指出:有关证据压倒性地支持“吸烟是人类肺部表皮癌发生率迅速上升的原因之一”。

74 吸烟与肺癌(四) 原方法:肺癌患者中的吸烟人数大大高于非肺癌患者中吸烟人数。
(有两种方法:追溯性研究(retrospective studies):从一种疾病开始着手,向后看与此病相关的有什么先决条件。其不足是对照组与病例组不匹配;事先研究(prospective studies):事先选定一群人,详细记录他们的吸烟史及疾病情况。其不足是研究是小范围的,结论也许只是针对某个特定群体而言的) Cornfield方法:他们搜集了1958年前不同国家、不同总体所做的30项流行病学研究。 返回

75 SPRT检验(一) Abraham Wald ( ) Samuel S. Wilks ( )

76 SPRT检验(二) 20世纪40年代,Wilks在普林斯顿大学数学系工作,并任华盛顿海军研究局顾问,成立了普林斯顿统计研究小组(SRG-P)。当Theodore W. Anderson还是此小组的研究生时研究了如下课题:由于日本人以随机形态在海岸线上布满地雷,而进攻日本本土日子越来越近,故美国需要找出一种毁坏地雷的有效方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但效果不好。于是,Anderson等人设计一种新方法,但实验数据表明这种方法并不有效。这样就导致美国在日本投下原子弹的原因之一。

77 SPRT检验(三) Wilks又在哥伦比亚大学组建了第二个统计研究小组(SRG-Pjr),这个小组的成果之一即是提出了与此与此序贯分析(序贯分析当时被列为最高机密,直至战争结束多年后,参加这项研究的专家都不能对外发表论文)。 后来,Abraham Wald通过高度抽象的理论归纳,提出了决策理论。 返回

78 几本参考书 陈希孺(2000). 数理统计发展简史,湖南科技出版社.
Huff, D. (1982) How to Lie with Statisitcs, W. W. Norton & Company. (沈恩杰等译) 陈善林、张浙(1987). 统计发展史,立信会计图书用品社. Folks, J. L. (1981). Ideas in Statistics, John Wiley. Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Sciences in the Twentieth Century, Henry Holt and Company.(邱东译,2005) 返回

79 拟合优度检验 显著性检验 似然比检验 卡方检验及其极限分布 列联表独立性检验 Kolmogorov检验 返回

80 显著性检验-优势检验

81 区间估计、抽样分布、显著性检验 抽样分布 区间估计 显著性检验

82 随机数与模拟 刘徵(生于公元250年左右 ) 返回


Download ppt "王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465 数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465."

Similar presentations


Ads by Google