词性标注与隐马尔可夫模型戴新宇 2006-11-17.

Slides:

Advertisements

Similar presentations

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

Advertisements

7.1 内置对象概述及分类 JSP 视频教学课程. JSP2.2 目录 1. 内置对象简介 1. 内置对象简介 2. 内置对象分类 2. 内置对象分类 3. 内置对象按功能区分 3. 内置对象按功能区分 4. 内置对象作用范围 4. 内置对象作用范围.

郑伟诗 Wei-Shi Jason Zheng

概率图模型林琛博士、副教授.

模式识别 – 概率密度函数的参数估计第三章概率密度函数的参数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言贝叶斯分类器的学习：类条件概率密度函数的估计。问题的表示：已有 c 个类别的训练样本集合 D 1 ， D 2 ， … ， D c ，求取每个类别的类条件概率密度。

《高等数学》（理学）常数项级数的概念袁安锋

§5.3 定积分的换元法和分部积分法一、定积分的换元法二、定积分的分部积分法三、小结、作业.

第三节格林公式及其应用（2）一、曲线积分与路径无关的定义二、曲线积分与路径无关的条件三、二元函数的全微分的求积四、小结.

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

程序的形式验证 - 简介中国科学院软件研究所张文辉 1.

大纲汉英新闻领域翻译评测概述系统流程预处理和后处理测试结果系统融合评测. 张大鲲孙乐中国科学院软件研究所

Adversarial Multi-Criteria Learning for Chinese Word Segmentation

隐马尔科夫模型和词性标注.

Hadoop I/O By ShiChaojie.

隐马尔可夫模型 Hidden Markov model

隐马尔可夫模型 Hidden Markov model

SOA – Experiment 3: Web Services Composition Challenge

管理信息结构SMI.

Wentao Ding Linfeng Shi Jiajie Yu

Introduction to AI and ML

EM算法一种参数估计的方法.

Online job scheduling in Distributed Machine Learning Clusters

What have we learned?.

隐马尔可夫模型 Hidden Markov model

第十章方差分析.

数据挖掘工具性能比较.

PaPaPa项目架构 By:Listen 我在这.

动态规划(Dynamic Programming)

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

基于规则抽取的时间表达式识别.

WSDM见闻程龚.

第4章非线性规划 4.5 约束最优化方法 2019/4/6 山东大学软件学院.

第一章函数与极限.

编程作业3：网页正文抽取（10分）.

习题一、概率论 1.已知随机事件A，B，C满足在下列三种情况下，计算（1）A，B，C相互独立（2）A，B独立，A，C互不相容

C++语言程序设计 C++语言程序设计第七章类与对象第十一组 C++语言程序设计.

C语言程序设计主讲教师：陆幼利.

Bioelectromagnetics Key Laboratory, College of Medicine

EBNF与操作语义请用扩展的 BNF 描述 javascript语言里语句的结构；并用操作语义的方法描述对应的语义规则

简单介绍用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)

模型分类问题 Presented by 刘婷婷苏琬琳.

线性规 Linear Programming

概率统计主讲教师叶宏山东大学数学院.

5.2 常用统计分布一、常见分布二、概率分布的分位数三、小结.

WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了，与其他文章的区别是什么？ 2.Charging Control的手段是什么？ 3.Power Reigon是什么东西？

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆

实体描述呈现方法的研究实验评估 2019/5/1.

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

上海交通大学计算机系吴亚栋 Tel: 语音识别基础第五章基于统计模型(HMM)方式的语音识别技术上海交通大学计算机系吴亚栋 Tel:

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

第七、八次实验要求.

序贯监督学习框架下的耀斑短期预报哈尔滨工业大学黄鑫.

基于最大margin的决策树归纳李宁.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群

第二节函数的极限一、函数极限的定义二、函数极限的性质三、小结思考题.

同位语从句.

數學遊戲二大象轉彎.

隐马尔可夫模型 Hidden Markov model

基于列存储的RDF数据管理朱敏

Adj + Noun映射到知识库中的classes

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。

第十七讲密码执行(1).

插入排序的正确性证明以及各种改进方法.

最小生成树最优二叉树.

Presentation transcript:

词性标注与隐马尔可夫模型戴新宇 2006-11-17

概要词性标注 HMM模型 HMM模型用于词性标注相关问题讨论

词性标注定义及任务描述词性标注的问题－标注歧义（兼类词）词性标注之重要性词性标注方法

词性标注任务描述什么叫词性？划分词类的依据汉语的词类划分词性标注：给某种语言的词标注上其所属的词类词性又称词类，是指词的语法分类，或者说是按照其各自的语法功能的不同而分出来的类别划分词类的依据词的形态、词的语法意义、词的语法功能汉语的词类划分词性标注：给某种语言的词标注上其所属的词类 The lead paint is unsafe. The/Det lead/N paint/N is/V unsafe/Adj. 他有较强的领导才能。他/代词有/动词较/副词强/形容词的/助词领导/名词才能/名词。

词性标注问题－词性标注歧义（兼类词）一个词具有两个或者两个以上的词性英文的Brown语料库中，10.4%的词是兼类词汉语兼类词词性标注问题－词性标注歧义（兼类词）一个词具有两个或者两个以上的词性英文的Brown语料库中，10.4%的词是兼类词 The back door On my back Promise to back the bill 汉语兼类词把门锁上，买了一把锁他研究与自然语言处理相关的研究工作汉语词类确定的特殊难点对兼类词消歧－词性标注的任务

词性标注的应用及重要性机器翻译 Text – Speech 词法句法规则－词性组合句法分析的预处理统计自然语言处理的基础

词性标注常见方法规则方法：统计方法基于错误驱动的方法词典提供候选词性人工整理标注规则决策树方法（Schmid 1994）寻找概率最大的标注序列如何建立统计模型 P( tag, word ) HMM方法（Garside et al. 1987,Church 1988）决策树方法（Schmid 1994）最大墒方法（Ratnaparkhi 1996）基于错误驱动的方法错误驱动学习规则利用规则重新标注词性

词性标注的性能指标性能指标：标注准确率当前方法正确率可以达到97% 正确率基线(Baseline)可以达到90% 基线的做法：给每个词标上它最常见的词性所有的未登录词标上名词词性

决定一个词词性的因素从语言学角度：由词的用法以及在句中的语法功能决定统计学角度：和上下文的词性（前后词的标注）相关和上下文单词（前后词）相关

隐马尔可夫模型－概要背景马尔可夫模型隐马尔可夫模型模型评估解码模型参数学习

背景俄国统计学家Andrei Markov（1856-1922）提出 Studied temporal probability models Real-world Observed output (signals) Signal Models – stimulate the signals source and learn as much as possible through simulations

马尔可夫模型举例说明马尔可夫模型马尔可夫假设

马尔可夫模型示例－天气预报状态：雨、多云、晴给定不同天气之间的转换概率，预测未来数天的天气通过如右图所示的矩阵描述状态之间的转移概率

马尔可夫模型示例－天气预报通过有限状态自动机描述状态转移概率

预测－计算未来天气（序列的概率）晴-晴-雨-雨-晴-多云-晴，未来七天天气是这种情况的概率

马尔可夫假设假设1 有限视野 P(Ot+1=Sk|O1,…Ot) = P(Ot+1=Sk|Ot-(n-1),…Ot) (n-1)th 阶马尔可夫链 → n 元语言模型假设2 时间独立性 P(Ot+1=Sk|Ot) = P(O2=Sk|O1)

隐马尔可夫模型－ Hidden Markov Model (HMM) 介绍定义隐马模型应用于词性标注

HMM模型的简单介绍 “隐”在何处？ HMM是一阶马尔可夫模型的扩展相对于markov模型的又一假设：输出独立性状态（序列）是不可见的（隐藏的） HMM是一阶马尔可夫模型的扩展观察值与状态之间存在概率关系隐藏的状态序列满足一阶马尔可夫模型相对于markov模型的又一假设：输出独立性

HMM的定义定义：一个HMM模型 λ=(A,B,π) S是状态集， S=(S1,S2,…SN) V是观察集， V=(V1,V2,…VM) 状态序列Q = q1q2…qT （隐藏），观察序列O=o1o2…oT （可见） A是状态转移概率分布A=[aij], aij=P(qt=sj|qt-1=si) (满足假设1.) B是观察值生成概率分布B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (满足假设2、3) 初始观察值概率分布 Π= [πi], πi =P(q1=si)

词性标注的HMM模型定义 HMM：S V A B π S：预先定义的词性标注集 V：文本中的词汇 A：词性之间的转移概率例，P(我|“代词”) π ：初始概率基于构建的HMM，利用某些算法，寻找一个最合适的词性标注序列，即为一个词串上的每个词标注上词性。注：可见的观察序列为w1w2…wT

Pos tagging using HMM 模型解码(Decoding) 模型参数学习(Learning) 给定模型和一个观测序列，寻求一个产生这个观测序列的可能性最大的状态序列给定词序列w1w2…wT （可见的观察序列），寻求产生这个词序列的最可能的词性标注序列Pos1Pos2…PosT （隐藏的状态序列）如何发现“最优”状态序列能够“最好地解释”观察序列需要高效算法，Viterbi算法模型参数学习(Learning)

Trellis representation of an HMM si sN s1 s2 si sN s1 s2 sj sN s1 s2 si sN a1j a2j aij aNj Time= 1 w1 t wt t+1 wt+1 T wT

计算观察序列对应某一状态序列的概率模型λ，观察序列O，假设对应状态序列为Q，计算该状态序列存在的可能性：简单的方法，计算所有可能的状态序列，O(NT)

Viterbi算法一种更有效率的利用动态规划思想的算法定义一个变量t(i) ，指在时间t时，HMM沿着某一条路径到达Si，并输出序列为w1w2…wt 的最大概率

利用Viterbi算法的求解过程初始化：迭代：迭代结束回溯记录最优路径：

Viterbi算法时间复杂度每计算一个，必须考虑从t-1时刻所有的N个状态转移到状态的si概率，时间复杂度为O(N)，对应每个时刻t，要计算N个中间变量时间复杂度为O(N2)，又t从1…T，因此整个前向算法时间复杂度为O(N2T)

模型参数学习给定状态集S和观察集V，学习模型参数A、B、π 模型参数学习过程就是构建模型的过程有指导的学习－最大似然估计（标注了词性的语料库）无指导的学习－Welch-Baum （未标注词性的语料库）

有指导学习模型参数－从标注语料中学习最大似然估计对于无标注的语料库（状态不可见）如何获取模型参数？

无指导学习模型参数－ Welch-Baum 算法迭代估计参数，使得此时λ最能拟合训练数据 Baum证明：随着迭代过程，

无指导学习模型参数－ Welch-Baum 算法基本思想：随机给出模型参数的初始化值，得到最初的模型λ0，然后利用初始模型λ0得到某一状态转移到另一状态的期望次数，然后利用期望次数对模型模型进行重新估计，由此得到模型λ1，如此循环迭代，重新估计，直至模型参数收敛（模型最优）。通过对模型的评估实现模型的最优化－模型使得训练数据存在概率最大化评估能够反映模型预测生成观察序列的能力

HMM模型的评估给定一个HMM λ和一个观察序列，计算该序列存在的概率－对所有可能生成该序列的状态序列的概率求和计算复杂度高

评估模型类似Veterbi动态规划算法前向算法：后向算法：定义前向概率:观察值为o1o2…ot,t时刻对应的状态值为si的概率迭代模型评估结果后向算法：定义后向概率:观察值为otot+1…oT,t时刻对应的状态值为si的概率

Welch-Baum算法的参数估计 How to calculate Expected Number? 定义一个变量，对应于观察序列o1o2…oT，假设在t时刻的状态是si，t+1时刻的状态是sj的概率。

Welch-Baum算法的参数估计（续）定义一个变量，对应于观察序列o1o2…oT，假设在t时刻的状态是si的概率。

无指导学习模型参数－ Welch-Baum 算法（二）赋aij , bi(vk)的初始值反复迭代，直到收敛

词性标注HMM的参数估计状态转移概率（词性－词性的概率） e.g. P(N|V) 生成概率（词性－词的概率）利用词性标注语料库获取状态转移概率和生成概率（最大似然估计）利用无标注语料库获取状态转移概率和生成概率（ Welch-Baum 算法）平滑未登录词处理

隐马模型的其它应用语音识别基因排序乐谱生成 ……

HMM HMM model λ 评估建模(参数估计) 解码(寻求最有序列) Viterbi 前向后向算法最大似然估计 Welch-Baum Viterbi 解码(寻求最有序列)

讨论的几个问题最大似然估计的效果词性标注中S、V的选取，为何选择词性标注集作为状态集S？选择词汇集作为观察集V？如何利用词典减少计算量？如何处理未登录词？平滑

Project 利用隐马尔可夫模型进行汉语词性标注（提供词性标注训练集）