黄昌宁微软亚洲研究院 cnhuang@msrchina.research.microsoft.com 消歧需要词例知识黄昌宁微软亚洲研究院 cnhuang@msrchina.research.microsoft.com.

Slides:

Advertisements

Similar presentations

1. 卸下标签身心松静关注健康！ 2. 坦诚开放互信互赖社会支持！ 3. 排除干扰倾心体悟创造协作！ 4. 连接自己享受成长和谐社会！恳请与提醒.

Advertisements

2.6 隐函数微分法第二章第二章二、高阶导数一、隐式定义的函数三、可微函数的有理幂. 一、隐函数的导数若由方程可确定 y 是 x 的函数, 由表示的函数, 称为显函数. 例如, 可确定显函数可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此隐函数求导方法.

105 年國中教育會考試場規則及學校規範考試時考生必須攜帶准考證準時入場，對號入座。第一條 (1)

福音－救主降 E 大调 6/8 1/7 t |5 e 1 w |3 r 5 t |5 q 3 q | t |5 e 1 w |3 r 5 t |5 q 3 q |2 919| ty u ! t |7 y 5 9|tiy u ! t |7 y 59| 5 e 1 w | 3 r 5 9.

旅糾紛遊與緊急事件處理 11 Chapter 旅遊費用.

新会计准则培训内容主讲:王秀荷.

第二章曲柄连杆机构机体组活塞连杆组曲轴飞轮组.

PROJECT NAME 项目名称上海xx文化传播有限公司.

中华传统文化 ——礼俗、宗法.

汉语分词汉语分词.

旅糾紛遊與緊急事件處理 16 Chapter 飯店問題.

汽车在( )上行驶.

电子信息类专业英语.

电视节目播音主持第三讲评论类节目主持主讲：范冰杰.

第三单元散文(2) 9 议论散文两篇.

一、送貨的時間二、驗收程序三、食材的驗收四、驗收器材五、驗收場所六、驗收程序的評量七、退貨的程序

食用受污染三鹿牌婴幼儿配方奶粉相关的婴幼儿泌尿系统结石的超声诊断.

第三方支付风生水起，多路大佬竞角逐第三方支付为互联网企业带来的巨大利益，各路势力目前正争相获取第三方支付牌照，但第三方支付平台跑路、盗刷等问题频出，使得行业未来发展受到挑战，那么未来第三方支付将走向如何？对此，九次方大数据结合网络舆情，对第三方支付行业进行了梳理，您会发现： 1、央行发放支付牌照政策收紧，新增获得第三方支付牌照的企业数量骤降.

培训教案公司审计部

基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.

第5章定积分及其应用基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法

不确定度的传递与合成间接测量结果不确定度的评估

《战国策》：范雎说秦王学习要点一、《战国策》题解二、长沙马王堆汉墓简介三、《范雎说秦王》说明四、《范雎说秦王》语言角度分析

枣核第六课.

深圳市晨兴餐饮投资管理有限公司招商手册.

大纲汉英新闻领域翻译评测概述系统流程预处理和后处理测试结果系统融合评测. 张大鲲孙乐中国科学院软件研究所

Adversarial Multi-Criteria Learning for Chinese Word Segmentation

课程与编码：语言学与应用语言学张露茜（博士）浙江工商大学外国语学院

物体识别 3D建图 semantic mapping

19、“精彩极了”和“糟糕透了” 生字学习阅读理解拓展练习.

静默草原鲍尔吉·原野引言敕勒歌　　敕勒川，阴山下，　　天似穹庐，笼盖四野。　　天苍苍，野茫茫，　　风吹草低见牛羊。

Wentao Ding Linfeng Shi Jiajie Yu

Unit 1 Art 武汉市第二十三中学李晓芳虚拟语气 Subjunctive Mood (I) OVERLOOK Task 任务 :

形式句法理论乔姆斯基生成转换句法的发展与现状.

Online job scheduling in Distributed Machine Learning Clusters

2 运算放大器 2.1 集成电路运算放大器 2.2 理想运算放大器 2.3 基本线性运放电路 2.4 同相输入和反相输入放大电路的其他应用.

生產的意義生產：生產者結合各種生產要素，並將投入轉換為產出，以創造或增加消費者的效用，並使生產者獲利的經濟行為。

数据挖掘工具性能比较.

第三章、审美媒介 416寝室丁禹杨光李梦可崔璐王田玉如徐晓蒙.

基于规则抽取的时间表达式识别.

囚绿记陆蠡绿色是自然满足人类审美心理需求的礼物，它是和平安宁的象征，它给人以生命活力的感召力量。

變壓器和高壓輸電危險！高壓電力！互感現象變壓器的原理進度評估 4 電壓比變壓器的電流

当当网入驻商户管理规定.

WSDM见闻程龚.

SOA – Experiment 2: Query Classification Web Service

一个RDF数据自然语言生成器的设计与实现

C++语言程序设计 C++语言程序设计第七章类与对象第十一组 C++语言程序设计.

如何查询论文的收录号？.

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

实体描述呈现方法的研究实验评估 2019/5/1.

國民年金 np97006.

概率统计主讲教师叶宏山东大学数学院.

B :调 4/4 因他活着 William Gaither

B :调 4/4 因他活着 William Gaither

孔融《与曹操论盛孝章书》.

基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.

降低食品安全風險永得食品有限公司營養師：林淑媛.

汽车构造第七讲主讲教师：冯原　　　　　　　　　　　　　　　学时：４８.

形式语言学的战国时期与支配及约束理论.

105學年度第2學期會計室業務重點宣導 106年3月8日.

每周物流资讯苏州得尔达国际物流有限公司第九十六期.

假代购诈骗钱 P2P网络非法集资洗钱虚开增值税发票洗钱非法经营POS机套现被第三方支付平台骗取资金买卖信用卡洗钱

基于列存储的RDF数据管理朱敏

Continuous Authentication for Voice Assistants

高级大数据人才培养丛书之一，大数据挖掘技术与应用

入侵检测技术大连理工大学软件学院毕玲.

汉语分词：最大匹配方法（6学时）陈文亮 2016年3月14日.

读经马太福音 28:16-20.

Presentation transcript:

黄昌宁微软亚洲研究院 cnhuang@msrchina.research.microsoft.com 消歧需要词例知识黄昌宁微软亚洲研究院 cnhuang@msrchina.research.microsoft.com

提纲对NLP的误识消歧需要词例知识（1）OAS的侦察和消歧（2）语块分析结论

对NLP的误识有人认为： ●中文信息处理 = 汉语理解 ●句法-语义方法是唯一出路事实是： ●分布在各个层面上的歧义是自然语言的一个本质属性，句法-语义方法在消歧方面的能力尚待证实

句法-语义的神话三种自动分词方法：形式分词(MM)，句法分词，语义分词 (王永成) 句法分词“解决切分歧义的 95%”(何克抗) 句法分析可解决切分歧义(Wu,1998) ●事实证明：句法-语义方法在消解切分歧义方面，效果并不理想(Wu, SIGHAN-2003) ●把自然语言处理看成是一个物理符号处理系统也许更现实一些

CFG规则不能做什么？ ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] ￭短语边界歧义： ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] [VP 经营/ [NP农产品/的/加工/] ] ●重视[NP发挥v/高素质/人才/的/作用/] [NP 高素质/人才/的/作用/] [VP发挥v/ [NP高素质/人才/的/作用/] ] ￭切分歧义： ●对路/a 的渴望竟如此强烈， [PP 对/p路/n] 的渴望

“的”字前的NP边界 /精力/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/事儿/。 ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/ ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/脑子/里/想/的/全/是/武术/的/ ●/想/的/全/是/武术/的/ ●/全/是/武术/的/ ●/武术/的/

句法分析调查一个实用化句法分析器的正确率约73%，其错误分布 (按句子计算)：分词词性组块中心词 40% 24% 12% 24% 分词词性组块中心词 40% 24% 12% 24% NLP底层工作不扎实是MT性能低下的原因

分词歧义调查(933句) 一个基于句法分析器的分词系统 (PBWS) 对交集型歧义字段 (OAS) 的误切: ①决定在全省/戒/玩/风/，/兴学/风/， ●LW: 兴学v，学风n，兴v，风{n, suf} ●构词法 n→v+suf: 抢购～|吃喝～|出国～|兴学～ n→n+suf: 世～|球～|文～|学～|玩～ ●句法 vp→v+n: /戒/玩风/，/兴/学风/， n→v+suf: /戒玩/风/，/兴学/风/，

OAS误切示例（续） ②最大限度地防止/[NP 有害/a 信息流/n] [VP 入/v 和/c 传播/v] ③保修条款亦/不详/尽/， ④挽救一/个/人生/命/的义务将凌驾于不侵犯别人隐私的义务。 ⑤改变“一手硬，/一/手软/”的状态，有新闻界的一份功劳。

CAS误切示例 PBWS 对覆盖型歧义字段(CAS) 的误切 ⑥东/中西部/地区要按照优势互补、互惠互利、真诚合作的原则，加强联合。 ⑦过去思想封闭的赞皇人，/对路/的渴望竟如此强烈， ⑧你们这/群山/里的女娃娃有了学本领、闯世界的志气。 ⑨希望你们再/创新/的业绩。 ⑩进书店/跟进/超市买柴米油盐/一/样/，

CAS“才能” X ⑪股票投资者的基本权利/才能/得到保障。 X ⑫怎样在安装等待过程中设计出活动的画面/才能/让用户不致焦躁。 V ⑬与之配套的软件/才/能/调试通， X ⑭切实纠正有偿新闻等不正之风，/才能/更好地为人民服务。 V ⑮由此入手，/才/能/更深刻地洞察信息时代教育改革发展的趋势与前景。

CAS“才能”和“才/能” “才/能”10个词；PBWS 报出7词，报对4词召回率=0.40（4/10）; 精确率=0.57（4/7） ●不论切分得对不对，句法分析结果似乎都是合理的： ⑭ …，[NP 才能/n] [VP 更好地/d 为人民/pp 服务/v] 。 ⑮ …，[VP 才/d 能/v 更深刻地/d 洞察/v] …

“才能”的语料调查随机抽取含字串“才能” 的1,100个句子 ●“才/能”出现概率：0.94 (1,035/1,100) ●“才/能”出现概率：0.94 (1,035/1,100) ●最简模型：见到“才能” 统通切开 ●召回率R=0.97（2,070/2,135）精确率P=0.94（2,070/2,200）

提纲对NLP的误识消歧需要词例知识（1）OAS的侦察和消歧（2）语块分析结论

为什么需要词例知识？ R. A. Hudson.1991. English Word Grammar. Basil Blackwell. Sag & Wasow. 1999. Syntactic Theory - A Formal Introduction. CSLI Publications. ●Chapter 9: Realistic Grammar ●9.3 Constraint-Based Lexicalism （基于约束的词例主义） Hunston & Francis. 2000. Pattern Grammar: A Corpus Driven Approach to the Lexical Grammar of English. John Benjamins,

（1）OAS的侦察和消歧 “信心地 → 信心/地”。如何侦察文本中的OAS？（黄昌宁《应用》97） ●若OF= OB，则 P(OF=OB=正确)≈ 0.99 ●若OF≠OB，则 P(OF=正确 ∨ OB=正确)≈ 0.99 词例化消歧规则 ●分词词表：93,700条 ●语料库：6.5亿字次 ●检出OAS 730,000条; 其中 f≥8： 47,000条 ● 41,000条词例化消歧规则（覆盖率约 80%） “信心地 → 信心/地”。

OAS词例化消歧规则组/成员组成/约组/队员组合/成组合/时组/歌曲组/稿件大都/是去年/底中/西部一家/人同一/天组/成员组成/约组/队员组合/成组合/时组/歌曲组/稿件大都/是去年/底中/西部一家/人同一/天相对/于全家/人坐/下来七/月份畜牧/场女/单打法学/院方面/向版画/家

OAS的消歧：无指导学习利用语言信息的冗余性，从未经消歧的语料中学习消歧知识 (Mu Li, SIGHAN-03) ●上下文特征集C = {w-m…w-1,w1…wn...} ●G(Seg,C)是一个评分函数，则 ● Seg = OF，当G(OF,C)>G(OB,C) ● Seg = OB，当G(OB,C)>G(OF,C) ● C =电报出现在上世纪末因 G (出现/在,C) > G(出/现在,C) 故 Seg = 出现/在

训练过程第一步：用FMM对语料进行预切分第二步：用BMM发现预切分语料中的最长OAS, 然后用类 ‘gap’ 屏蔽掉全部OAS 第三步：用上述语料训练一个NBC分类器第四步：在语料中逐个打开gap, 并通过NBC分类器来确定每个OAS的切分第五步：利用自动消歧后的语料训练一个分词的N元模型，使之具有OAS消歧能力

实验结果 Naïve Bayesian Classifier (NBC) l=0 l=1 l=2 r=0 NBC(0,0) NBC(1,0) FMM BMM 规则+FMM 规则+BMM NBC (0,0) 投票制 73.1% 71.5% 90.7% 91.3% 93.7% 94.1% 测试语料:1997年人民日报，460,000字次, 或247,000词次

不同系统的比较测试集： 52,375词次, 743 个 OAS t-test：p<=1.9e-7 纵坐标为错误个数，我们的系统叫LSP

（2）语块分析 CoNLL-2000 (Conference on Natural Language Learning) http://pi0657.kub.nl/~signll/conll.html 语块分析可视为标注问题（Abney, 91) 用标记表示每个词在不同类语块中的位置： I-X：X类语块中的一个词 B-X：连续X类语块中的第一个词 O：语块以外的一个词/标记（如标点符号） 11种语块，标记集共含23个标记

英文语块分析的评测训练集： WSJ Sec. 15-18 Penn Treebank 测试集： WSJ Sec. 20 of Penn Treebank Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000 shared task: Chunking. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000.

CoNLL-2000评测结果 SYSTEM P (%) R (%) F (%) Kudoh & Matsumoto 93,45 93.51 93.48 Van Helteren 93.13 93.32 Tjong Kim Seng 94.04 91.00 92.50 Zhou, Tey & Su 91.99 92.25 92.12 Johansson 86.24 88.25 87.23 Valain & Day 88.82 82.91 85.76 Baseline 72.58 82.14 77.07 Baseline performance：Selecting the chunk tag most frequently associated with a POS rag. The top three systems use compound approach.

汉语语块标注规范(spec) 定义了11种语块：NP, VP, ADJP, ADVP, PP, SP, MP, TP , CONJP, INTJP, INDP O (Outside) 标记： “的，得，和，与”，标点符号举例： [TP 前/f 两/m 年/q] ，/w [NP 我/r] [PP 跟/p] [NP 邻村/n] 的/u [NP 建筑队/n] [VP 到/v] [NP 焦作/ns] [PP 给/p] [NP 人/n] [VP 盖/v] [NP 房子/n] 。/w

难在哪里？——边界歧义 ●[TP 当年/t] [NP “/w 知青/n ”/w 人生/n 经历/n] 的/u [NP 节目/n] [NP 收听率/n] [ADJP 很/d 高/a] 。 ● [PP 对/p ] [VP 驻/v] [NP 艰苦/a 地区/n] [NP 部队/n 官兵/n ] [NP 生活/vn] [VP 历来/d 十分/m 重视/v] 。 ●[NP 十五大/j 精神/n] ，/w [VP 使/v] [NP 京剧/n] [NP 步履/n] [VP 坚实/a 地/u 迈向/v] … ● [NP 记者/n] [VP 住/v] 的/u [NP 公寓/n] [NP 楼道/n] [SP 里/f] [VP 写/v 着/u] …

语块分析的实验设计例句：[NP 珠海/ns] 的/u [NP 立体/a 交通/n 框架/n] [VP 已/d 初具规模/v 了/u] CFG规则：r1=ns__NP, r2= u__O, r3= a_n_n__NP, r4=d_v_u__VP (1) FMM：CFG规则的正向最大匹配 (2) FMM+规则裁剪：规则增益 G(r)＝Nc(r)－Ne(r)≥δ (3) PCFG：C*=argmaxC∏i=1…k P(ri)

语块分析的实验设计 (4) HMM：令W,T,C 代表词、词性和语块序列 C*=argmaxC P(C|W,T) =argmaxC P(W|C,T)P(C,T)/P(W,T) =argmaxC P(W|C,T)P(C,T) 三元组 <ti ,mi ,xi > 表示每个词的词性、语块边界和语块类型，而每个语块的生成规则 r,i = {…<ti ,mi ,xi >…} 则 P(W|C,T) ≈ ∏i=1…m P(wi|ti,mi,xi) P(C,T)≈ P(r1)P(r2|r1) ∏i=3…k P(ri|ri-2ri-1)

优选的CFG规则规则 r G(r) d_v__VP 302 n_n__NP 194 vn_n__NP 109 ad_v__VP 97 v_v__VP 81

淘汰的CFG规则规则 r G(r) n_w__NP -105 v_n__NP -99 n_v__NP -83 p_v__PP -80 p_n__PP -73

数据概况原始语料：1998 年1月人民日报（北大POS标注）语块标注结果：数据标记数 (tokens) 语块数 (chunks) (outsides) 平均长度 (不包括O) 全部 502,141 259,843 104,691 1.530 训练集 444,777 229,989 92,839 调试集 30,954 15,975 6,359 1.540 测试集 26,410 13,879 5,493 1.507

实验结果 Bosch & Buchholz(ACL02)证明,当训练集达5万句时，仅用‘词例’的性能超过了‘词性’ 模型 FMM FMM+ 规则裁剪 PCFG HMM 1-gram 3-gram F (%) 35.88 69.45 81.44 86.82 88.39 F≈70% 是CFG分析系统的平均水平, PCFG令F 值进一步提升12点 “HMM(1-gram)”的F 值比PCFG高出5. 4个点，主要是词例知识的贡献 Bosch & Buchholz(ACL02)证明,当训练集达5万句时，仅用‘词例’的性能超过了‘词性’ Shallow parsing on the basis of words only: A case study. 1）当训练集规模=2万~5万句时，仅用‘词例’的chunker性能超过‘词性’； 2）‘词性+词例’比单独用‘词性’或‘词例’的性能都更好。

提纲对NLP的误识消歧需要词例知识（1）OAS的侦察和消歧（2）语块分析结论

NLP的语言知识面向机器面向人面向任务面向知识词典句法语义篇章基于词例基于词类/语义类

新词识别：构词概率构词概率举例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 举例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 调制解调器2 不解之缘2 排忧解难9 慷慨解囊2 (解,0) 0.296 谅解8 和解12 瓦解2 理解101 见解16 了解274 (解,-1) 0.012 (难解的)3 (学者解梦)1 (忧解过)1 (以解企业)2 (，解了)1 (民解愁) 1

新词识别：构词类比度结成-1 4 结/成交结/成果结/成婚结/成为 44 84 981 274 1588 2770 结成-1 4 结/成交结/成果结/成婚结/成为 44 84 981 274 1588 2770 typ(X*) typ(Y*) tok(XZ) tok(YZ) tok(X*) tok(Y*) 结核-1 3 结/核算结/核对结/核实 44 40 32 36 1588 507 结作-1 5 结/作业结/作成结/作为结/作对结/作案 44 46 615 41 1588 2205 结体-0 4 集结/体连结/体团结/体总结/体 23 90 368 340 431 1683

两种语言知识 1）面向：任务知识 2）对象：大规模真实文本受限的规范语言 2）表示：概率化参数模型句法-语义规则面向机器的语言知识面向人的语言知 1）面向：任务知识 2）对象：大规模真实文本受限的规范语言 2）表示：概率化参数模型句法-语义规则 3）词例知识：是基于词类/语义类 4）上下文相关：是一般上下文无关 5）颗粒度：极细粗 6）覆盖面：宽窄 7）获取方式：自动/半自动语言学家语感/直觉 8）评测: 准绳和动力例不十法不立，例外不十法不破

路在何方？重新认识NLP的技术现状和应用需求摆脱句法-语义传统理念的束缚扎牢底层核心技术，打造高性能应用系统 NLP的主流技术： ● 词例知识 ● 概率参数模型 ● 统计机器学习

谢谢！