黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com 消歧需要词例知识 黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com.

Slides:



Advertisements
Similar presentations
1. 卸下标签 身心松静 关注健康! 2. 坦诚开放 互信互赖 社会支持! 3. 排除干扰 倾心体悟 创造协作! 4. 连接自己 享受成长 和谐社会! 恳请与提醒.
Advertisements

2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
105 年國中教育會考 試場規則及學校規範 考試時考生必須攜帶准考證準時 入場,對號入座。 第一條 (1)
福音 - 救主 降 E 大调 6/8 1/7 t |5 e 1 w |3 r 5 t |5 q 3 q | t |5 e 1 w |3 r 5 t |5 q 3 q |2 919| ty u ! t |7 y 5 9|tiy u ! t |7 y 59| 5 e 1 w | 3 r 5 9.
旅 糾 紛 遊 與緊急事件處理 11 Chapter 旅遊費用.
新会计准则培训内容 主讲:王秀荷.
第二章 曲柄连杆机构 机体组 活塞连杆组 曲轴飞轮组.
PROJECT NAME 项目名称 上海xx文化传播有限公司.
中华传统文化 ——礼俗、宗法.
汉语分词 汉语分词.
旅 糾 紛 遊 與緊急事件處理 16 Chapter 飯店問題.
汽车在( )上行驶.
电子信息类专业英语.
电视节目播音主持 第三讲 评论类节目主持 主讲:范冰杰.
第三单元 散文(2) 9 议论散文两篇.
一、送貨的時間 二、驗收程序 三 、食材的驗收 四、驗收器材 五、驗收場所 六、驗收程序的評量 七、退貨的程序
食用受污染三鹿牌婴幼儿配方奶粉相关的 婴幼儿泌尿系统结石的超声诊断.
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
培训教案 公司审计部
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
《战国策》:范雎说秦王学习要点 一、《战国策》题解 二、长沙马王堆汉墓简介 三、《范雎说秦王》说明 四、《范雎说秦王》语言角度分析
枣核 第六课.
深圳市晨兴餐饮投资管理有限公司 招商手册.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
题型复习.
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
课程与编码:语言学与应用语言学 张露茜(博士) 浙江工商大学 外国语学院
物体识别 3D建图 semantic mapping
19、“精彩极了”和“糟糕透了” 生字学习 阅读理解 拓展练习.
静默草原 鲍尔吉·原野 引 言 敕勒歌    敕勒川,阴山下,   天似穹庐,笼盖四野。   天苍苍,野茫茫,   风吹草低见牛羊。
Wentao Ding Linfeng Shi Jiajie Yu
Unit 1 Art 武汉市第二十三中学 李晓芳 虚拟语气 Subjunctive Mood (I) OVERLOOK Task 任务 :
形式句法理论 乔姆斯基生成转换句法 的发展与现状.
Online job scheduling in Distributed Machine Learning Clusters
2 运算放大器 2.1 集成电路运算放大器 2.2 理想运算放大器 2.3 基本线性运放电路 2.4 同相输入和反相输入放大电 路的其他应用.
生產的意義 生產:生產者結合各種生產要素,並將投入轉換 為產出,以創造或增加消費者的效用,並 使生產者獲利的經濟行為。
数据挖掘工具性能比较.
第三章、审美媒介 416寝室 丁禹 杨光 李梦可 崔璐 王田玉如 徐晓蒙.
基于规则抽取的 时间表达式识别.
囚绿记 陆蠡 绿色是自然满足人类审美心理需求的礼物,它是和平安宁的象征,它给人以生命活力的感召力量。
變壓器和高壓輸電 危險!高壓電力! 互感現象 變壓器的原理 進度評估 4 電壓比 變壓器的電流
当当网入驻商户管理规定.
WSDM见闻 程龚.
SOA – Experiment 2: Query Classification Web Service
一个RDF数据自然语言生成器的设计与实现
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
如何查询论文的收录号?.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
國民年金 np97006.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
B :调 4/4 因他活着 William Gaither
B :调 4/4 因他活着 William Gaither
孔融《与曹操论盛孝章书》.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
降低食品安全風險 永得食品有限公司 營養師:林淑媛.
汽车构造 第七讲 主讲教师:冯原               学时:48.
形式语言学的战国时期 与 支配及约束理论.
105學年度第2學期 會計室業務重點宣導 106年3月8日.
每周物流资讯 苏州得尔达国际物流有限公司 第九十六期.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
基于列存储的RDF数据管理 朱敏
Continuous Authentication for Voice Assistants
高级大数据人才培养丛书之一,大数据挖掘技术与应用
入侵检测技术 大连理工大学软件学院 毕玲.
汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日.
读经 马 太 福 音 28:16-20.
Presentation transcript:

黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com 消歧需要词例知识 黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com

提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论

对NLP的误识 有人认为: ●中文信息处理 = 汉语理解 ●句法-语义方法是唯一出路 事实是: ●分布在各个层面上的歧义是自然语言的一个本质属性,句法-语义方法在消歧方面的能力尚待证实

句法-语义的神话 三种自动分词方法:形式分词(MM),句法分词,语义分词 (王永成) 句法分词“解决切分歧义的 95%”(何克抗) 句法分析可解决切分歧义(Wu,1998) ●事实证明:句法-语义方法在消解切分歧义方面,效果并不理想(Wu, SIGHAN-2003) ●把自然语言处理看成是一个物理符号处理系统也许更现实一些

CFG规则不能做什么? ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] ■ 短语边界歧义: ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] [VP 经营/ [NP农产品/的/加工/] ] ●重视[NP发挥v/高素质/人才/的/作用/] [NP 高素质/人才/的/作用/] [VP发挥v/ [NP高素质/人才/的/作用/] ] ■切分歧义: ●对路/a 的 渴望 竟 如此 强烈 , [PP 对/p路/n] 的 渴望

“的”字前的NP边界 /精力/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/事儿/。 ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/ ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/脑子/里/想/的/全/是/武术/的/ ●/想/的/全/是/武术/的/ ●/全/是/武术/的/ ●/武术/的/

句法分析调查 一个实用化句法分析器的正确率约73%, 其错误分布 (按句子计算): 分词 词性 组块 中心词 40% 24% 12% 24% 分词 词性 组块 中心词 40% 24% 12% 24% NLP底层工作不扎实是MT性能低下的原因

分词歧义调查(933句) 一个基于句法分析器的分词系统 (PBWS) 对交集型歧义字段 (OAS) 的误切: ①决定在全省/戒/玩/风/,/兴学/风/, ●LW: 兴学v,学风n,兴v,风{n, suf} ●构词法 n→v+suf: 抢购~|吃喝~|出国~|兴学~ n→n+suf: 世~|球~|文~|学~|玩~ ●句法 vp→v+n: /戒/玩风/,/兴/学风/, n→v+suf: /戒玩/风/,/兴学/风/,

OAS误切示例(续) ②最大限度地防止/[NP 有害/a 信息流/n] [VP 入/v 和/c 传播/v] ③保修条款亦/不详/尽/, ④挽救一/个/人生/命/的义务将凌驾于不侵犯别人隐私的义务。 ⑤改变“一手硬,/一/手软/”的状态,有新闻界的一份功劳。

CAS误切示例 PBWS 对覆盖型歧义字段(CAS) 的误切 ⑥东/中西部/地区要按照优势互补、互惠互利、真诚合作的原则,加强联合。 ⑦过去思想封闭的赞皇人,/对路/的渴望竟如此强烈, ⑧你们这/群山/里的女娃娃有了学本领、闯世界的志气。 ⑨希望你们再/创新/的业绩。 ⑩进书店/跟进/超市买柴米油盐/一/样/,

CAS“才能” X ⑪股票投资者的基本权利/才能/得到保障。 X ⑫怎样在安装等待过程中设计出活动的画面/才能/让用户不致焦躁。 V ⑬与之配套的软件/才/能/调试通, X ⑭切实纠正有偿新闻等不正之风,/才能/更好地为人民服务。 V ⑮由此入手,/才/能/更深刻地洞察信息时代教育改革发展的趋势与前景。

CAS“才能”和“才/能” “才/能”10个词;PBWS 报出7词,报对4词 召回率=0.40(4/10); 精确率=0.57(4/7) ●不论切分得对不对,句法分析结果似乎都是合理的: ⑭ …,[NP 才能/n] [VP 更好地/d 为人民/pp 服务/v] 。 ⑮ …,[VP 才/d 能/v 更深刻地/d 洞察/v] …

“才能”的语料调查 随机抽取含字串“才能” 的1,100个句子 ●“才/能”出现概率:0.94 (1,035/1,100) ●“才/能”出现概率:0.94 (1,035/1,100) ●最简模型:见到“才能” 统通切开 ●召回率R=0.97(2,070/2,135) 精确率P=0.94(2,070/2,200)

提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论

为什么需要词例知识? R. A. Hudson.1991. English Word Grammar. Basil Blackwell. Sag & Wasow. 1999. Syntactic Theory - A Formal Introduction. CSLI Publications. ●Chapter 9: Realistic Grammar ●9.3 Constraint-Based Lexicalism (基于约束的词例主义) Hunston & Francis. 2000. Pattern Grammar: A Corpus Driven Approach to the Lexical Grammar of English. John Benjamins,

(1)OAS的侦察和消歧 “信心地 → 信心/地”。 如何侦察文本中的OAS?(黄昌宁《应用》97) ●若OF= OB,则 P(OF=OB=正确)≈ 0.99 ●若OF≠OB,则 P(OF=正确 ∨ OB=正确)≈ 0.99 词例化消歧规则 ●分词词表:93,700条 ●语料库:6.5亿字次 ●检出OAS 730,000条; 其中 f≥8: 47,000条 ● 41,000条词例化消歧规则(覆盖率约 80%) “信心地 → 信心/地”。

OAS词例化消歧规则 组/成员 组成/约 组/队员 组合/成 组合/时 组/歌曲 组/稿件 大都/是 去年/底 中/西部 一家/人 同一/天 组/成员 组成/约 组/队员 组合/成 组合/时 组/歌曲 组/稿件 大都/是 去年/底 中/西部 一家/人 同一/天 相对/于 全家/人 坐/下来 七/月份 畜牧/场 女/单打 法学/院 方面/向 版画/家

OAS的消歧:无指导学习 利用语言信息的冗余性,从未经消歧的语料中学习消歧知识 (Mu Li, SIGHAN-03) ●上下文特征集C = {w-m…w-1,w1…wn...} ●G(Seg,C)是一个评分函数,则 ● Seg = OF,当G(OF,C)>G(OB,C) ● Seg = OB,当G(OB,C)>G(OF,C) ● C =电报 出现在 上世纪 末 因 G (出现/在,C) > G(出/现在,C) 故 Seg = 出现/在

训练过程 第一步:用FMM对语料进行预切分 第二步:用BMM发现预切分语料中的最长OAS, 然后用类 ‘gap’ 屏蔽掉全部OAS 第三步:用上述语料训练一个NBC分类器 第四步:在语料中逐个打开gap, 并通过NBC分类器来确定每个OAS的切分 第五步:利用自动消歧后的语料训练一个分词的N元模型,使之具有OAS消歧能力

实验结果 Naïve Bayesian Classifier (NBC) l=0 l=1 l=2 r=0 NBC(0,0) NBC(1,0) FMM BMM 规则+FMM 规则+BMM NBC (0,0) 投票制 73.1% 71.5% 90.7% 91.3% 93.7% 94.1% 测试语料:1997年人民日报,460,000字次, 或247,000词次

不同系统的比较 测试集: 52,375词次, 743 个 OAS t-test:p<=1.9e-7 纵坐标为错误个数,我们的系统叫LSP

(2)语块分析 CoNLL-2000 (Conference on Natural Language Learning) http://pi0657.kub.nl/~signll/conll.html 语块分析可视为标注问题(Abney, 91) 用标记表示每个词在不同类语块中的位置: I-X:X类语块中的一个词 B-X:连续X类语块中的第一个词 O:语块以外的一个词/标记(如标点符号) 11种语块,标记集共含23个标记

英文语块分析的评测 训练集: WSJ Sec. 15-18 Penn Treebank 测试集: WSJ Sec. 20 of Penn Treebank Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000 shared task: Chunking. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000.

CoNLL-2000评测结果 SYSTEM P (%) R (%) F (%) Kudoh & Matsumoto 93,45 93.51 93.48 Van Helteren 93.13 93.32 Tjong Kim Seng 94.04 91.00 92.50 Zhou, Tey & Su 91.99 92.25 92.12 Johansson 86.24 88.25 87.23 Valain & Day 88.82 82.91 85.76 Baseline 72.58 82.14 77.07 Baseline performance:Selecting the chunk tag most frequently associated with a POS rag. The top three systems use compound approach.

汉语语块标注规范(spec) 定义了11种语块:NP, VP, ADJP, ADVP, PP, SP, MP, TP , CONJP, INTJP, INDP O (Outside) 标记: “的,得,和,与”,标点符号 举例: [TP 前/f 两/m 年/q] ,/w [NP 我/r] [PP 跟/p] [NP 邻村/n] 的/u [NP 建筑队/n] [VP 到/v] [NP 焦作/ns] [PP 给/p] [NP 人/n] [VP 盖/v] [NP 房子/n] 。/w

难在哪里?——边界歧义 ●[TP 当年/t] [NP “/w 知青/n ”/w 人生/n 经历/n] 的/u [NP 节目/n] [NP 收听率/n] [ADJP 很/d 高/a] 。 ● [PP 对/p ] [VP 驻/v] [NP 艰苦/a 地区/n] [NP 部队/n 官兵/n ] [NP 生活/vn] [VP 历来/d 十分/m 重视/v] 。 ●[NP 十五大/j 精神/n] ,/w [VP 使/v] [NP 京剧/n] [NP 步履/n] [VP 坚实/a 地/u 迈向/v] … ● [NP 记者/n] [VP 住/v] 的/u [NP 公寓/n] [NP 楼道/n] [SP 里/f] [VP 写/v 着/u] …

语块分析的实验设计 例句:[NP 珠海/ns] 的/u [NP 立体/a 交通/n 框架/n] [VP 已/d 初具规模/v 了/u] CFG规则:r1=ns__NP, r2= u__O, r3= a_n_n__NP, r4=d_v_u__VP (1) FMM:CFG规则的正向最大匹配 (2) FMM+规则裁剪: 规则增益 G(r)=Nc(r)-Ne(r)≥δ (3) PCFG:C*=argmaxC∏i=1…k P(ri)

语块分析的实验设计 (4) HMM:令W,T,C 代表词、词性和语块序列 C*=argmaxC P(C|W,T) =argmaxC P(W|C,T)P(C,T)/P(W,T) =argmaxC P(W|C,T)P(C,T) 三元组 <ti ,mi ,xi > 表示每个词的词性、语块边界和语块类型,而每个语块的生成规则 r,i = {…<ti ,mi ,xi >…} 则 P(W|C,T) ≈ ∏i=1…m P(wi|ti,mi,xi) P(C,T)≈ P(r1)P(r2|r1) ∏i=3…k P(ri|ri-2ri-1)

优选的CFG规则 规则 r G(r) d_v__VP 302 n_n__NP 194 vn_n__NP 109 ad_v__VP 97 v_v__VP 81

淘汰的CFG规则 规则 r G(r) n_w__NP -105 v_n__NP -99 n_v__NP -83 p_v__PP -80 p_n__PP -73

数据概况 原始语料:1998 年1月人民日报(北大POS标注) 语块标注结果: 数据 标记数 (tokens) 语块数 (chunks) (outsides) 平均长度 (不包括O) 全部 502,141 259,843 104,691 1.530 训练集 444,777 229,989 92,839 调试集 30,954 15,975 6,359 1.540 测试集 26,410 13,879 5,493 1.507

实验结果 Bosch & Buchholz(ACL02)证明,当训练集达5万句时,仅用‘词例’的性能超过了‘词性’ 模型 FMM FMM+ 规则裁剪 PCFG HMM 1-gram 3-gram F (%) 35.88 69.45 81.44 86.82 88.39 F≈70% 是CFG分析系统的平均水平, PCFG令F 值进一步提升12点 “HMM(1-gram)”的F 值比PCFG高出5. 4个点,主要是词例知识的贡献 Bosch & Buchholz(ACL02)证明,当训练集达5万句时,仅用‘词例’的性能超过了‘词性’ Shallow parsing on the basis of words only: A case study. 1)当训练集规模=2万~5万句时,仅用‘词例’的chunker性能超过‘词性’; 2)‘词性+词例’比单独用‘词性’或‘词例’的性能都更好。

提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论

NLP的语言知识 面向机器 面向人 面向任务 面向知识 词典 句法 语义 篇章 基于词例 基于词类/语义类

新词识别:构词概率 构词概率 举 例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 举 例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 调制解调器2 不解之缘2 排忧解难9 慷慨解囊2 (解,0) 0.296 谅解8 和解12 瓦解2 理解101 见解16 了解274 (解,-1) 0.012 (难 解 的)3 (学者 解 梦)1 (忧 解 过)1 (以 解 企业)2 (,解 了)1 (民 解 愁) 1

新词识别:构词类比度 结 成-1 4 结/成交 结/成果 结/成婚 结/成为 44 84 981 274 1588 2770 结 成-1 4 结/成交 结/成果 结/成婚 结/成为 44 84 981 274 1588 2770 typ(X*) typ(Y*) tok(XZ) tok(YZ) tok(X*) tok(Y*) 结 核-1 3 结/核算 结/核对 结/核实 44 40 32 36 1588 507 结 作-1 5 结/作业 结/作成 结/作为 结/作对 结/作案 44 46 615 41 1588 2205 结 体-0 4 集结/体 连结/体 团结/体 总结/体 23 90 368 340 431 1683

两种语言知识 1)面向:任务 知识 2)对象:大规模真实文本 受限的规范语言 2)表示:概率化参数模型 句法-语义规则 面向机器的语言知识 面向人的语言知 1)面向:任务 知识 2)对象:大规模真实文本 受限的规范语言 2)表示:概率化参数模型 句法-语义规则 3)词例知识:是 基于词类/语义类 4)上下文相关:是 一般上下文无关 5)颗粒度:极细 粗 6)覆盖面:宽 窄 7)获取方式:自动/半自动 语言学家语感/直觉 8)评测: 准绳和动力 例不十法不立, 例外不十法不破

路在何方? 重新认识NLP的技术现状和应用需求 摆脱句法-语义传统理念的束缚 扎牢底层核心技术,打造高性能应用系统 NLP的主流技术: ● 词例知识 ● 概率参数模型 ● 统计机器学习

谢谢!