报告人：李荣陆 E-Mail：lironglu@163.net N-Gram及其平滑技术报告人：李荣陆 E-Mail：lironglu@163.net.

Slides:

Advertisements

Similar presentations

高等数学（ XJD ）第二章导数与微分返回高等数学（ XAUAT ）高等数学（ XJD ）求导法则基本公式导数导数微分微分微分微分求导方法高阶导数微分法则导数与微分关系图导数与微分关系图.

Advertisements

一、一阶线性微分方程及其解法二、一阶线性微分方程的简单应用三、小结及作业 §6.2 一阶线性微分方程.

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

第二章导数与微分习题课主要内容典型例题测验题. 求导法则求导法则求导法则求导法则基本公式导数导数微分微分微分微分高阶导数高阶微分一、主要内容.

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

第二章导数与微分一. 内容要点二. 重点难点三. 主要内容四. 例题与习题.

新編多元性向測驗測驗說明輔導室

非线性时间序列模型一般非线性时间序列模型介绍条件异方差模型上海财经大学统计与管理学院.

第五章二次型. 第五章二次型知识点1---二次型及其矩阵表示二次型的基本概念 1. 线性变换与合同矩阵 2.

一、能线性化的多元非线性回归二、多元多项式回归（线性化）

一、二阶行列式的引入用消元法解二元线性方程组. 一、二阶行列式的引入用消元法解二元线性方程组.

101年國中畢業生多元進路宣導國中部註冊組 100年10月29日.

高中職優質化專題教育研究博士班二年級游宗輝.

海星國中部直升方案說明報告人：教務處陳博文主任

101年度十二年國民基本教育國民中學校長專業研習校長落實補救教學、適性輔導中輟生的預防與復學輔導之實務作為

歡迎各位老師蒞校參訪召集人、各位委員、同仁大家好，我是林淑玟，負責教務行政進行簡報報告人：林淑玟中華民國九十九年三月二十三日.

大學甄選入學選填志願輔導說明會曾文農工輔導室.

一所具有悠久歷史與優良傳統的優質學校強調生活教育與精緻教學是您有心向學的最佳選擇.

國立嘉義高級工業職業學校 101年度綜合高中宣導研習國立嘉義高工教務主任林章明

海軍軍官學校士官二專班招生簡報、第1頁，共30頁.

海軍軍官學校士官二專班 103學年度招生簡報.

时政发布制作：宋虹雷.

一、原函数与不定积分二、不定积分的几何意义三、基本积分公式及积分法则四、牛顿—莱布尼兹公式五、小结

第5章定积分及其应用基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

第三章导数与微分习题课主要内容典型例题.

2-7、函数的微分教学要求教学要点.

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

3.解：连续掷同一枚硬币4次的基本事件总数为，

第三章多维随机变量及其分布 §2 边缘分布边缘分布函数边缘分布律边缘概率密度.

辅导课程六.

计算机数学基础主讲老师: 邓辉文.

§2 求导法则 2.1 求导数的四则运算法则下面分三部分加以证明, 并同时给出相应的推论和例题 .

EM算法一种参数估计的方法.

Online job scheduling in Distributed Machine Learning Clusters

第十章方差分析.

数据挖掘工具性能比较.

基于规则抽取的时间表达式识别.

SOA – Experiment 2: Query Classification Web Service

第4章非线性规划 4.5 约束最优化方法 2019/4/6 山东大学软件学院.

习题一、概率论 1.已知随机事件A，B，C满足在下列三种情况下，计算（1）A，B，C相互独立（2）A，B独立，A，C互不相容

抽样和抽样分布基本计算 Sampling & Sampling distribution

自然语言处理 ---统计语言模型 By super.Y.

模型分类问题 Presented by 刘婷婷苏琬琳.

概率统计主讲教师叶宏山东大学数学院.

5.2 常用统计分布一、常见分布二、概率分布的分位数三、小结.

WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了，与其他文章的区别是什么？ 2.Charging Control的手段是什么？ 3.Power Reigon是什么东西？

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

正切函数的图象和性质周期函数定义：一般地，对于函数 (x),如果存在一个非零常数T，使得当x取定义域内的每一个值时，都有

第4课时绝对值.

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

学习任务三偏导数结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.

第一部分：概率产生随机样本：对分布采样均匀分布其他分布伪随机数很多统计软件包中都有此工具如在Matlab中：rand

1.非线性规划模型 2.非线性规划的Matlab形式

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

数据统计与分析秦猛南京大学物理系第11讲办公室：唐仲英楼A

§5.2 抽样分布　　确定统计量的分布——抽样分布，是数理统计的基本问题之一．采用求随机向量的函数的分布的方法可得到抽样分布．由于样本容量一般不止2或 3(甚至还可能是随机的)，故计算往往很复杂，有时还需要特殊技巧或特殊工具．　　由于正态总体是最常见的总体，故本节介绍的几个抽样分布均对正态总体而言．

第二节函数的极限一、函数极限的定义二、函数极限的性质三、小结思考题.

§2 方阵的特征值与特征向量.

第三节随机区组设计的方差分析随机区组设计资料的总平方和可以分解为三项：（10.10）.

滤波减速器的体积优化仵凡 Advanced Design Group.

第三节函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.

Adj + Noun映射到知识库中的classes

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

§4.5 最大公因式的矩阵求法（ Ⅱ ）.

第二次课后作业答案函数式编程和逻辑式编程

Presentation transcript:

报告人：李荣陆 E-Mail：lironglu@163.net N-Gram及其平滑技术报告人：李荣陆 E-Mail：lironglu@163.net

相关资料吴立德等，《大规模中文文本处理》，“稀疏事件的概率估计”，pp.53~62。

统计语言模型假设一个句子S可以表示为一个序列S=w1w2…wn，语言模型就是要求句子S的概率P(S)：这个概率的计算量太大，解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1)，等价类的数目远远小于不同历史的数目，即假定：

N-Gram模型当两个历史的最近的N-1个词（或字）相同时，映射两个历史到同一个等价类，在此情况下的模型称之为N-Gram模型。根据最大似然估计，语言模型的参数：其中，C(w1w2…wi)表示w1w2…wi在训练数据中出现的次数

平滑技术的引入（1）传统的估计方法对于随机变量£的N次独立观察的样本容量N有如下要求： N>>K 实际语言模型中往往无法满足这个要求。例如：词性标注问题，共有140个可能的标记，考虑当前词前后两个词的影响的三阶模型。 K=140*140*140=2,744,000 给定一个10万词左右的人工标注训练集，即 N=100,00，可见训练数据显得非常不足。

平滑技术的引入（2）假设k泛指某一事件，N(k)表示事件k观察到的频数，极大似然法使用相对频数作为对事件k的概率估计： p(k)=N(k)/N 在语言模型中，训练语料中大量的事件N(k)=0，这显然没有反映真实情况。我们把这个问题称为数据稀疏问题。这种零值的概率估计会导致语言模型算法的失败，例如：概率值作为乘数会使结果为0，而且不能做log运算。

计数等价类根据对称性原理，事件除了出现次数之外不应具有细节特征，即所有具有相同计数r=N(k)的事件k（事件出现的次数称为事件的计数）应当具有相同的概率估计值，这些计数相同的事件称为计数等价，将它们组成的一个等价类记为计数等价类Gr。对于计数为r的计数等价类，定义nr为等价类中成员的个数，pr为等价类中事件的概率，R是最大可能出现的计数次数，则

交叉检验（1）交叉检验就是把训练样本分为m份，其中一份作为保留部分，其余m-1份作为训练部分。训练部分作为训练集估计概率pr，保留部分作为测试集进行测试。我们使用Cr表示保留部分中计数为r的计数等价类的观察个数。对于保留部分使用最大似然法对进行概率pr进行估计，即使对数似然函数最大化：

交叉检验（2）使用拉格朗日乘子解决约束条件下的最大值问题，即：对pr求偏导，得到交叉检验估计：如果测试部分也作为保留部分的话，就是典型的极大似然估计：

留一估计留一方法是交叉检验方法的扩展，基本思想是将给定N个样本分为N-1个样本作为训练部分，另外一个样本作为保留部分。这个过程持续N次，使每个样本都被用作过保留样本。优点：充分利用了给定样本，对于N中的每个观察，留一法都模拟了一遍没有被观察到的情形。对于留一方法，pr的极大似然估计为：

Turing-Good公式因为nRpR与1相比一般可以忽略，留一估计公式可以近似为：

空等价类留一估计中要求么个nr均不为0，在实际问题中当r=5时，这个要求通常都不能满足，即计数等价类G1,…,GR中存在空的等价类。这时按照出现次数进行排序：对应的出现r(l)次的事件的个数记为nr(l)，在进行留一估计时，使用下一个非空的等价类Gr(l+1)代替可能为空的等价类Gr(l)+1，留一估计公式变为：式中对空的等价类没有估计概率，因为空等价类并没有对应任何有效事件。

Turing-Good估计的优缺点和适用范围缺点：( 1 )无法保证概率估计的“有序性”，即出现次数多的事件的概率大于出现次数少的事件的概率。(2)pr与r/N不能很好地近似，好的估计应当保证pr<=r/N。优点：其它平滑技术的基础。适用范围：对0<r<6的小计数事件进行估计。

约束留一估计单调性约束：pr-1<=pr；折扣约束：p<=r/N。在这个约束下，单调性约束自然满足。计算方法：计算时检查每个pr是否满足约束，不然就用约束的上下界进行裁剪，然后重新计算，一直迭代下去直到所有pr满足约束。

折扣模型 Katz指出Turing-Good公式实质是对模型中观察到的事件进行折扣，将折扣得来的概率摊到所n0个未现事件中。在这个思想的指导下，估计公式可以下成如下形式：其中，dr是对计数为r的事件的计数的一个折扣函数。

绝对折扣模型若折扣函数定义为：dr=b，其中b为一个大于0的常数。那么未现事件的总概率为：对应绝对折扣模型的估计公式为：

线性折扣模型若折扣函数定义为：dr=·r，其中为一个大于0的常数。那么未现事件的总概率为：对应线性折扣模型的估计公式为：若=n1/N，则n0p0=n1/N，与Turing-Good估计相同。

删除插值法（Deleted Interpolation）其基本思想是，由于N-Gram比N+1-Gram出现的可能性大的多，所以使用N-Gram估计N+1-Gram的概率，例如trigram的计算公式如下：其中，参数的确定：将训练数据分为两部分，一部分用于估计f(wi| w1w2…wi-1)，一部分用于计算参数，求使语言模型的困惑度最小的。