基于R软件的统计模拟 奚 潭 (南京财经大学统计系2006级).

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§5.2 中心极限定理 定理3(同分布中心极限定理)设随机变量X1, X2, …, Xn, …相互独立,服从相同分布,且有有限的数学期望和方差,即: E(Xk) =,D(Xk) =2,k = 1, 2, … 则随机变量 的分布函数Fn(x)满足: 对任意的x,有.
第四章 概率、正态分布、常用统计分布.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
08-09冬季学期 概率论与数理统计 姜旭峰,胡玉磊.
常用逻辑用语复习课 李娟.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
本讲义可在网址 或 ftp://math.shekou.com 下载
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
1.2 事件的频率与概率 一、事件的频率 二、概率的公理化体系 1.2 事件的频率与概率.
程序的形式验证 - 简介 中国科学院软件研究所 张文辉 1.
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
走进编程 程序的顺序结构(二).
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
动态规划(Dynamic Programming)
概 率 统 计 主讲教师 叶宏 山东大学数学院.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
概率论 ( Probability) 2016年 2019年4月13日星期六.
C语言程序设计 主讲教师:陆幼利.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
实数与向量的积.
Monte Carlo Simulation Methods (蒙特卡罗模拟方法)
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第5章 大数定律和中心极限定理 5.1 大数定律 5.2 中心极限定理.
实验七 安全FTP服务器实验 2019/4/28.
第二章 随机变量及其分布 第一节 随机变量 第二节 离散随机变量及分布律 第三节 随机变量的分布函数 第四节 连续随机变量及概率密度
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
§5.2 中心极限定理 人们已经知道,在自然界和生产实践中遇到的大量随机 变量都服从或近似服从正态分布,正因如此,正态分布占有
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
用穷举法设计程序 南京师范大学 教育技术系 倪佳慧
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
第三章 随机变量的数字特征 (一)基本内容 一、一维随机变量的数学期望 定义1:设X是一离散型随机变量,其分布列为:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第三章 多维随机变量及其分布 第一节 二维随机变量 第二节 边缘分布 第三节 条件分布 第四节 相互独立的随机变量
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第二节 中心极限定理 一、问题的引入 二、基本定理 三、典型例题 四、小结.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第 四 章 大 数 定 理 与 中 心 极 限 定 理.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
《离散结构》 二元运算性质的判断 西安工程大学计算机科学学院 王爱丽.
§2 方阵的特征值与特征向量.
定义 设连续型随机变量 概率密度为 分布函数是 特别地, 其概率密度为 一、正态分布的相关内容:.
难点:连续变量函数分布与二维连续变量分布
9.5空间向量及其运算 2.共线向量与共面向量 淮北矿业集团公司中学 纪迎春.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
§4.1数学期望.
Presentation transcript:

基于R软件的统计模拟 奚 潭 (南京财经大学统计系2006级)

主要内容 1.统计模拟的基本概念 2.赶火车问题 3.R软件的统计模拟功能 4.应用R软件模拟验证大数定律

一、统计模拟的基本概念 (一)统计模拟的定义 统计模拟即是计算机统计模拟,它实质上是计算机建模,而这里的计算机模型就是计算机方法、统计模型(如程序、流程图、算法等),它是架于计算机理论和实际问题之间的桥梁。它与统计建模的关系如下图。 实际问题 统计、逻辑 模型 计算机模拟(程序、算法) 实际解 统计、计算机解

一、统计模拟的基本概念 (二)统计模拟方法 一般地,统计模拟分类如下: 若按状态变量的变化性质分为连续随机模拟和离散随机模拟。 而按变量是否随时间变化又可分为动态随机模拟和静态随机模拟。 常用的统计模拟方法主要有以下几种: 1.蒙特卡罗法 2.系统模拟方法 3.其它方法:包括Bootstrap(自助法)、MCMC(马氏链蒙特卡罗法)等。

一、统计模拟的基本概念 (三)统计模拟的一般步骤

二、赶火车问题 一列列车从A站开往B站,某人每天赶往B站上车。他已经了解到火车从A站到B站的运行时间是服从均值为30min,标准差为2min的正态随机变量。火车大约下午13:00离开A站,此人大约13:30到达B站。火车离开A站的时刻及概率如表1所示,此人到达B站的时刻及概率如表2所示。问此人能赶上火车的概率有多大? 表1:火车离开A站的时刻及概率 火车离站时刻 13:00 13:05 13:10 概率 0.7 0.2 0.1 表2:某人到达B站的时刻及概率 人到站时刻 13:28 13:30 13:32 13:34 概率 0.3 0.4 0.2 0.1

二、赶火车问题 ——问题的分析—— 这个问题用概率论的方法求解十分困难,它涉及此人到达时刻、火车离开站的时刻、火车运行时间几个随机变量,而且火车运行时间是服从正态分布的随机变量,没有有效的解析方法来进行概率计算。在这种情况下可以用计算机模拟的方法来解决。

二、赶火车问题 进行计算机统计模拟的基础是抽象现实系统的数学模型 为了便于建模,对模型中使用的变量作出如下假定: :火车从A站出发的时刻; :火车从A站到B站的运行时间; :某人到达B站的时刻; :随机变量 服从正态分布的均值; :随机变量 服从正态分布的标准差;

二、赶火车问题 为了分析简化,假定13时为时刻t=0,则变量 、 的分布律为: 5 10 0.7 0.2 0.1 28 30 32 34 0.3 0.4 0.2 0.1 此人能及时赶上火车的充分必要条件为: ,所以此人能赶上火车的概率模型为: 。

二、赶火车问题 R软件求解的总算法: 进入演示 ①借助区间(0,1)分布产生的随机数,对变量 、 概率分布进行统计模拟; 产生随机数 ①借助区间(0,1)分布产生的随机数,对变量 、 概率分布进行统计模拟; 验证模型 ②根据变量 、 、 概率分布及模拟程序、命令产生n 个随机分布数; 关系式 成立 是 否 ③使用随机产生的n 组随机数验证模型中的关系表达式是否成立; 成立次数k=k+1 成立次数不变 ④计算n 次模拟实验中,使得关系表达式成立的次数k ; 试验次数 是否达到n次 否 ⑤当 时,以 作为此人能赶上火车的概率p 的近似估计; 是 计算估计结果 k/n 进入演示

windows(7, 3) prb = replicate(100, { #括号内程序重复100次     x = sample(c(0, 5, 10), 1, prob = c(0.7, 0.2, 0.1))     y = sample(c(28, 30, 32, 34), 1, prob = c(0.3, 0.4, 0.2, 0.1))     plot(0:40, rep(1, 41), type = "n", xlab = "time", ylab = "",         axes = FALSE)     axis(1, 0:40)     r = rnorm(1, 30, 2)     points(x, 1, pch = 15)     i = 0     while (i <= r) {         i = i + 1         segments(x, 1, x + i, 1)         if (x + i >= y)             points(y, 1, pch = 19)         Sys.sleep(0.1)     }     points(y, 1, pch = 19)     title(ifelse(x + r <= y, "poor... missed the train!", "Bingo! catched the train!"))     Sys.sleep(4)     x + r > y }) mean(prb) 进入模拟

三、R软件的统计模拟功能 1、R软件优秀的随机数模拟功能 分布 产生随机数序列命令 参数设置 binomial rbinom() n, size, prob chi-squared rchisq() n, df, ncp exponential exp() n, rate F F() n, df1, df2, ncp normal norm() n,mean,sd Poisson pois() n, lambda Student’s t t() unifom unif() n, min, max

三、R软件的统计模拟功能 2、优良的编程环境和编程语言 R所拥有的好的兼容性、拓展性和强大的内置函数有利于统计模拟的实现。 3、高效率的向量运算功能 使用R拥有的向量运算功能可以大大减少程序运行的时间,提高程序运行的效率。  下面以求解Pi的程序为例加以说明

三、R软件的统计模拟功能 未采用R向量运算功能的程序为: 引入向量运算功能改进后的程序为: mc1<-function(n){ set.seed(1234579) k<-0; x<-runif(n); y<-runif(n); for(i in 1:n){ if(x[i]^2+y[i]^2<1) k<-k+1; } data.frame(Pi=4*k/n) mc1<-function(n){ set.seed(1234579) k<-0; x<-runif(n); y<-runif(n); k <- length(x[x^2+y^2 < 1]) data.frame(Pi=4*k/n) } --> 下面用R软件分别执行两个程序,看看有什么差异 程序1 ...... 程序2

四、应用R软件模拟验证大数定律 1、验证的大数定律有: (1)伯努利大数定理—— 设 是 次独立重复试验中事件 发生的次数。 是事件 在每次试验中发生的概率,则对于任意正数 >0,有 (2)辛钦定理: 设随机变量 相互独立,服从同一分布,且具有数学期望 , ,则对于任意正数 ,有

四、应用R软件模拟验证大数定律 2、在R软件实现的算法思想: 由大数定律可知,当 ,样本的均值趋向与理论分布的期望,因此利用样本容量 逐渐增大这一趋势来模拟 这一趋势,在这种趋势下,样本的均值与理论分布期望的误差 应该呈现出越来越小的趋势,同时,根据上述思想,分别对五种常用分布下的大数定律进行验证。

四、应用R软件模拟验证大数定律 大数定律模拟算法  进入演示…… ①设置循环的跳跃步长 、 的第一次抽样的样本容量初始值 和上限值 ; ①设置循环的跳跃步长 、 的第一次抽样的样本容量初始值 和上限值 ; 设置参数值 ②利用函数 产生由各模拟样本空间大小组成的m 维序列; 产生m维序列 ③选择随机数 的分布类型,本文中的相关程序仅选择了常用的随机分布:正态分布、指数分布、均匀分布、泊松分布、二项分布、两点分布; 选择分布类型 产生随机数 ④利用R软件产生n个服从同一分布的随机数 ; 计算样本均值y 试验次数 是否达到m次 ⑤计算 (或 )的值; 否 ⑥若循环次数 i<m ,则回转④,否则转⑦; 是 ⑦以x轴代表样本容量n ,y 轴代表每次抽样所得的样本均值,描绘出整个试验的过程。 绘图  进入演示……

五、应用R软件模拟验证中心极限定理 1、验证的中心极限定理有 (1)独立同分布的中心极限定理: 设随机变量 相互独立,服从同一分布,且具有数学期望和方差: ,则随机变量之和 的标准化变量: 的分布函数对于任意满足:

五、应用R软件模拟验证中心极限定理 (2)De Moivre-Laplace(棣莫弗-拉普拉斯)中心极限定理 设相互独立的随机变量 服从参数为 p 的两点分布,则对于任意实数 x ,有

五、应用R软件模拟验证中心极限定理 中心极限定理模拟算法  进入演示…… ①选择随机变量 的分布类型,主要分布类型有正态分布、指数分布、均匀分布、泊松分布、二项分布和两点分布; 选择分布类型 ②设置模拟试验总次数m 及每次模拟试验中随机变量的个数n 的值; 确定参数m和n 产生随机数 ③利用R软件模拟产生n个服从同一分布的随机数 ; 计算标准化随机变量 ④使用产生的n 个随机数计算标准化随机变量值 设置参数j和step j>m 否 ⑤设置循环变量j 和循环的跳跃步长 ,当 时,重复步骤③、④,直至 ; 是 统计检验和 描述性分析 ⑥对m 个 值进行正态性检验和描述性统计分析,包括直观的QQ图检验、正态性W 检验以及偏度系数、峰度系数、均值和方差。  进入演示……

非常感谢!