第三章 水文统计的基本原理与方法
3.1 概述
水文统计的意义 水文分析计算常用到数理统计的方法 进行流域或地区水资源开发利用,首先要了解流域内未来的河道的来水量,以合理规划; 进行水利工程规划设计,需弄清未来时期河流中可能的洪水量及其过程,以确定工程的规模 这种对未来长期的径流情势(属随机变量)的估计,只能依据其统计规律,利用数理统计的方法进行“概率预估”。 所谓“概率预估”,即分析水文变量出现大过或小于某个数值的可能性为多少
河川水文现象的特点 多变和不完全重复性 水文现象在发生的时间和数值的大小上都具有随机性。 因此不能依靠短期的观测资料对今后的变化趋势做准确的判 断 地区性 水文现象因地区不同而异。因此引用经验公式要注意其 地区特点 周期性 水文现象具有周期性循环变化的性质
收集水文资料的要求 一致性 代表性 即要求同一计算系列中的水文资料属于同一类型,是在同一 条件下产生的 一般需要将径流资料修正到流域被大规模治理前的接近天然 状态的水平,这项修正工作被称为还原计算 W’天然=W’实测+W’还原 →包括农业灌溉用水量、工业用水量、 城镇用水量、水库需水量的年变化值、水面面积扩大增加的水面 蒸发量、水库渗漏量、跨流域引水量等 代表性 代表性分析是针对某一具体样本,研究它的频率分布与总体概 率分布的差异情况,差异愈小,两者愈接近,说明该样本代表性 愈高
收集水文资料的要求 可靠性 收集资料时,应对原始资料进行复核,对测验精度、整编成 果作出评价,对资料中精度不高、写错、伪造等部分进行改正, 以保证分析结果的客观性及准确性 独立性 根据数理统计的要求,选用的资料应具有一定的独立性,彼 此有关系的资料不能收入同一系列
3.2 概率论在水文学中的应用
水文统计的基本概念 事件 对随机现象的观测称为随机试验。随机试验的结果叫做事件 事件分为三类: 必然事件 不可能事件 随机事件
水文统计的基本概念 随机变量 用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。 它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即: X = x1, X = x2, X = xn 一般称之为随机系列或随机数列。
水文统计的基本概念 随机变量 随机变量分为: A. 离散型随机变量 Discrete random variable 随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0, 1, 2…,不能取相邻两数值之间的任何值。 B. 连续型随机变量 Continuous random variable 随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0 ~ 极限值之间的任何实数值
水文统计的基本概念 总体 容量 在统计数学中,把某种随机变量所取数值的全体,称为总体。 水文变量如年径流量的总体数是无穷的,故无法取得总体。 从总体中不带主观成分任意抽取的一部分,称为样本。样本所 包含的项数,称为样本容量 如实测的水文数据是有限的,是一样本。
概率与频率 概率 为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率,亦称几率 简单(古典)的随机事件的概率定义用下式表示: 式中 P(A):一定条件下随机事件A的概率; n :试验中所有可能的出现的结果数; m :出现随机事件A的结果数。
概率与频率 【例】袋中有手感完全相同的20个白球和10个黑球,问:摸出白球、黑球的概率各是多少?摸出白球或黑球的概率为多少?摸出红球的概率为多少? 【解】P(白)=20/(20+10)=2/3 P(黑)=10/(20+10)=1/3 P(白或黑)=(20+10)/(20+10)=1 P(红)=0/(20+10)=0
概率与频率 频率 设事件A在n 次随机试验中出现了m 次,则定义: 为事件A 在n 次试验中出现的频率。
概率与频率 频率与概率的关系 当试验次数 n 不大时,事件频率有明显的不稳定性。当试验次 数 n 增加到充分大时,事件频率显著地出现稳定的趋势,例如 频率是实测值、经验值;而概率是理论值,当试验次数很多时, 可以通过实测样本的频率分析来推论事件总体概率特性,即推论 随机事件在客观上可能出现的程度,这是数理统计法的基本原理 皮尔逊掷硬币试验: 丢币次数 出现正面的次数 频率 4040 2048 0.5069 12000 6019 0.5016 24000 12014 0.5005
概率运算定理 概率运算定律 I. 概率相加定理 互斥事件:在一次试验中,只有一个事件发生,其余事件均不能发生,这类事件称为互斥事件; 概率相加定理:互斥的各事件中,至少有一个发生的概率等于各个事件发生的概率总和 【例】袋中有手感完全相同的20个白球和10个黑球,问:摸出白或黑求的概率是多少?
概率运算定理 【例】某测站有40年的实测枯水位记录,各种水位出现的频率如下表所示,试确定水位H≥2.0m和H≥2.7m的概率? 序号 频数f(a) 频率W(%) 累积频率P (%) 1 2 3 4 5 4.0 3.5 2.7 2.0 1.9 10 16 9 25 40 22.5 7.5 30 70 92.5 100 ∑ —
概率运算定理 概率运算定律 II. 概率相乘定理 独立事件:某一事件的出现并不影响其他事件的出现,这类事件称为独立事件 概率相乘定理:几个独立事件一并(先后)出现的概率等于各事件出现的概率之积。 【例】有三条互不影响的排水管道,它们遭遇满溢的破坏概率各为1/10,求这三条排水管道在工作中同时都出现满溢的概率。
概率运算定理 条件概率: 在事件B发生的情况下事件A的概率。记为P(A︱B) P(AB)=P(B)P(A︱B) 【例】一纸箱中有相同大小的乒乓球50个,其中白色40个,黄色10个,现任意从中取一个不放回,再从中取另一个,问两次取球均为白色的概率。 【解】设A为第一次取得白色球的事件,B为第二次取得白色球的事件,那么 P(A)=40/50 P(B︱A)=(40-1)/(50-1)=39/49 则,P(AB)= P(A)•P(B︱A)=40/50ⅹ 39/49=0.637
概率运算定理 水文学中需要知道连续两年超过警戒水位的频率 【例】每年从某河的某水文站选一个最高水位组成系列,如在n年中出现超过警戒水位的资料共有a个,求连续两年超过警戒水位的频率是多少? 【解】设事件A为第一次超过警戒水位,事件B为第二次超过警戒水位
随机变量的概率分布 对于离散型随机变量: 随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为: 上式中P1, P2, … Pn 表示随机变量X 取值x1, x2, … xn 所对应的概率。
随机变量的概率分布 一般将这种对应关系称作随机变量的概率分布规律,简称为分 布规律以用以下的分布图形表示: x1 x2 x3 x4 … … xn X P 离散型随机变量概率分布图
随机变量的概率分布 对于连续型随机变量: 变量的取值充满整个数值区间,无法一一列出其每一个可能值,只能以区间的概率来分析其分布规律。 连续系列按由大到小顺序排列,分成N组,组距值∆x=xi-xi+1,任一组内概率为∆p,组间平均概率为f= ∆p/ ∆x,此值称为∆x区间对应的概率密度。 区间足够小时 f(x)-概率密度函数
随机变量的概率分布 水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为: 它是x的函数,称作随机变量X的分布函数(Distribution function),记作F(x),即 表示随机变量X大于或等于值x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。
随机变量的概率分布 已知概率密度函数f(x),可求出随机变量X落在(x~x+dx)区间即dx上的概率= f(x)dx,称之为概率元素,即为图中的阴影面积 已知概率密度函数f(x),可求出随机变量X概率分布函数F(x),其与密度函数f(x) 有如下的数学关系: f(x) f(xi) F(x) xi 密度曲线 分布曲线 x dx F(xi)
随机变量的概率分布 可见,随机变量的二个函数的物理意义: a. f(x)——密度函数,反映随机变量X落入dx 区间的平均概率; b. F(x) ——分布函数,反映随机变量X超过某个值 x 的概率。 这两个函数能完整地描述随机变量的分布规律。
随机变量的概率分布 【例】 某站有62年的降水资料(书中36页表3.2)。分析年降水 量的概率分布规律。 【解】 将62年降水量按大小每隔∆x=200mm划分为一组,统计各组值 出现的次数,计算各组值相应得频率、频率密度、累积次数、累积频率 的值。 表3.2 某站某年降水量分组频率计算表 年降水量h/mm 组内频数 累计频数 组内频率/% 累计频率/% 组内平均频率密度 分组组距∆h=200mm 组上限值 组下限值 fi/次 m/次 Wi=fi/s Pi Wi/∆h (1) (2) (3) (4) (5) (6) (7) 2299.9 2100 1 1.6 0.0081 2099.9 1900 2 3 3.2 4.8 0.0161 1899.9 1700 6 9.7 0.0242 1699.9 1500 7 13 11.3 21.0 0.0565 1499.9 1300 26 41.9 0.1048 1299.9 1100 18 44 29.0 71.0 0.1452 1099.9 900 15 59 24.2 95.2 0.1210 899.9 700 61 98.4 699.9 500 62 100.0 合计
随机变量的概率分布 以年降水量(各组下限制)为纵坐标,以频率密度为横坐标,绘成频率密度直方图,绘成频率密度直方图。 整个系列中,出现特别大、特别小降水的机会少,而出现中间值的机会多;每个小矩形的面积代表该组年降水量出现的频率;所有小矩形面积之和等于1
随机变量的概率分布 以年降水量(各组下限制)为纵坐标,以累积频率P为横坐标,绘成累积频率直方图,而以累积频率为横坐标,绘成累积频率直方图。 图中折线代表大于或等于各组降水下限的累积频率,反应出大于或等于x的频率依随机变量取值而变化的情况,称为频率分布图。
累计频率和重现期 累积频率与随机变量的关系 水文特征值属于连续型随机变量,在分析水文系列的概率分布时,用 x≥xi的概率P,也就是累积频率。累积频率是指等量值和超量值累计出现 的次数与总观测次数之比。 由累积频率的大小可直观地看出所取水文特征值的安全性和可靠性。 为提高工程设计的安全度,引入累积频率以能更直观地反应工程的安全 性 在实际应用中用样本系列频率分布代替整体系列的频率分布。当样本 容量相当的大,而组距很小时,可以绘出频率分布曲线。 根据选取样本系列的方法不同,频率分为: 年频率:采用年最大值法选样,即每年取一个最大代表值组成随机 样本系列,样本容量n为年数,得到的频率称为年频率。 次频率:采用超定量法或超大值法选样,即每年区多个代表值组成 随机样本系列,样本容量s为次数,得到的频率称为次频率。
累计频率和重现期 重现期 是指某一随机事件在长时期内平均多长时间出现一次(水文学 中常称为“多少年一遇”)。即在许多试验中,某一随机事件重 复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析 中,重现期可以等效地替代频率。
累计频率和重现期 频率P与重现期T关系的两种表示法: a.当研究洪水或暴雨问题 使用的设计频率P<50% 水文上关心的是大于等于某洪水或某暴雨量发生的频率,因此, 重现期指在很长时期N年内,出现大于等于某水文变量XP 事件的 平均重现的间隔期T: 式中: T——重现期,以年计; P——大于等于某水文变量 XP—事件的频率。
累计频率和重现期 频率P与重现期T关系的两种表示法: b. 当研究枯水问题 使用的设计频率P>50% 水文上关心的是小于XP的事件出现的频率及相应的重现期 重现期指在很长的时期内(N年)出现小于某水文变量XP事件的平均重现间隔期。若水文变量大于等于XP的频率为P ,则小于XP事件的频率应为:1-P,在N年内小于XP事件出现的次数应为N(1-P),因此其重现期为: 注意:重现期不是固定多少年重复一次
累计频率和重现期 设计保证率 工程上习惯把设计频率叫做设计保证率,即供水或供电来水得 到保证的程度(频率>50%)。
累计频率和重现期 设计标准 水文现象具有明显的地区性和随机性,因而无法用水文特征值 出现的量值做为工程设计的标准。主管部门根据工程的规模、工 程在国民经济的地位以及工程失事后果等因素,在各种工程设计 规范中规定各种水文特征值的水文资料,通过水文分析计算,求 出对应于设计频率的水文特征值,作为工程设计的依据。
【例1】P=5%的丰水年,重现期等于_____年。 【例2】P=95%的枯水年,重现期等于________年。 思考题……