黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com 消歧需要词例知识 黄昌宁 微软亚洲研究院 cnhuang@msrchina.research.microsoft.com
提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论
对NLP的误识 有人认为: ●中文信息处理 = 汉语理解 ●句法-语义方法是唯一出路 事实是: ●分布在各个层面上的歧义是自然语言的一个本质属性,句法-语义方法在消歧方面的能力尚待证实
句法-语义的神话 三种自动分词方法:形式分词(MM),句法分词,语义分词 (王永成) 句法分词“解决切分歧义的 95%”(何克抗) 句法分析可解决切分歧义(Wu,1998) ●事实证明:句法-语义方法在消解切分歧义方面,效果并不理想(Wu, SIGHAN-2003) ●把自然语言处理看成是一个物理符号处理系统也许更现实一些
CFG规则不能做什么? ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] ■ 短语边界歧义: ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] [VP 经营/ [NP农产品/的/加工/] ] ●重视[NP发挥v/高素质/人才/的/作用/] [NP 高素质/人才/的/作用/] [VP发挥v/ [NP高素质/人才/的/作用/] ] ■切分歧义: ●对路/a 的 渴望 竟 如此 强烈 , [PP 对/p路/n] 的 渴望
“的”字前的NP边界 /精力/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/事儿/。 ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/ ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/脑子/里/想/的/全/是/武术/的/ ●/想/的/全/是/武术/的/ ●/全/是/武术/的/ ●/武术/的/
句法分析调查 一个实用化句法分析器的正确率约73%, 其错误分布 (按句子计算): 分词 词性 组块 中心词 40% 24% 12% 24% 分词 词性 组块 中心词 40% 24% 12% 24% NLP底层工作不扎实是MT性能低下的原因
分词歧义调查(933句) 一个基于句法分析器的分词系统 (PBWS) 对交集型歧义字段 (OAS) 的误切: ①决定在全省/戒/玩/风/,/兴学/风/, ●LW: 兴学v,学风n,兴v,风{n, suf} ●构词法 n→v+suf: 抢购~|吃喝~|出国~|兴学~ n→n+suf: 世~|球~|文~|学~|玩~ ●句法 vp→v+n: /戒/玩风/,/兴/学风/, n→v+suf: /戒玩/风/,/兴学/风/,
OAS误切示例(续) ②最大限度地防止/[NP 有害/a 信息流/n] [VP 入/v 和/c 传播/v] ③保修条款亦/不详/尽/, ④挽救一/个/人生/命/的义务将凌驾于不侵犯别人隐私的义务。 ⑤改变“一手硬,/一/手软/”的状态,有新闻界的一份功劳。
CAS误切示例 PBWS 对覆盖型歧义字段(CAS) 的误切 ⑥东/中西部/地区要按照优势互补、互惠互利、真诚合作的原则,加强联合。 ⑦过去思想封闭的赞皇人,/对路/的渴望竟如此强烈, ⑧你们这/群山/里的女娃娃有了学本领、闯世界的志气。 ⑨希望你们再/创新/的业绩。 ⑩进书店/跟进/超市买柴米油盐/一/样/,
CAS“才能” X ⑪股票投资者的基本权利/才能/得到保障。 X ⑫怎样在安装等待过程中设计出活动的画面/才能/让用户不致焦躁。 V ⑬与之配套的软件/才/能/调试通, X ⑭切实纠正有偿新闻等不正之风,/才能/更好地为人民服务。 V ⑮由此入手,/才/能/更深刻地洞察信息时代教育改革发展的趋势与前景。
CAS“才能”和“才/能” “才/能”10个词;PBWS 报出7词,报对4词 召回率=0.40(4/10); 精确率=0.57(4/7) ●不论切分得对不对,句法分析结果似乎都是合理的: ⑭ …,[NP 才能/n] [VP 更好地/d 为人民/pp 服务/v] 。 ⑮ …,[VP 才/d 能/v 更深刻地/d 洞察/v] …
“才能”的语料调查 随机抽取含字串“才能” 的1,100个句子 ●“才/能”出现概率:0.94 (1,035/1,100) ●“才/能”出现概率:0.94 (1,035/1,100) ●最简模型:见到“才能” 统通切开 ●召回率R=0.97(2,070/2,135) 精确率P=0.94(2,070/2,200)
提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论
为什么需要词例知识? R. A. Hudson.1991. English Word Grammar. Basil Blackwell. Sag & Wasow. 1999. Syntactic Theory - A Formal Introduction. CSLI Publications. ●Chapter 9: Realistic Grammar ●9.3 Constraint-Based Lexicalism (基于约束的词例主义) Hunston & Francis. 2000. Pattern Grammar: A Corpus Driven Approach to the Lexical Grammar of English. John Benjamins,
(1)OAS的侦察和消歧 “信心地 → 信心/地”。 如何侦察文本中的OAS?(黄昌宁《应用》97) ●若OF= OB,则 P(OF=OB=正确)≈ 0.99 ●若OF≠OB,则 P(OF=正确 ∨ OB=正确)≈ 0.99 词例化消歧规则 ●分词词表:93,700条 ●语料库:6.5亿字次 ●检出OAS 730,000条; 其中 f≥8: 47,000条 ● 41,000条词例化消歧规则(覆盖率约 80%) “信心地 → 信心/地”。
OAS词例化消歧规则 组/成员 组成/约 组/队员 组合/成 组合/时 组/歌曲 组/稿件 大都/是 去年/底 中/西部 一家/人 同一/天 组/成员 组成/约 组/队员 组合/成 组合/时 组/歌曲 组/稿件 大都/是 去年/底 中/西部 一家/人 同一/天 相对/于 全家/人 坐/下来 七/月份 畜牧/场 女/单打 法学/院 方面/向 版画/家
OAS的消歧:无指导学习 利用语言信息的冗余性,从未经消歧的语料中学习消歧知识 (Mu Li, SIGHAN-03) ●上下文特征集C = {w-m…w-1,w1…wn...} ●G(Seg,C)是一个评分函数,则 ● Seg = OF,当G(OF,C)>G(OB,C) ● Seg = OB,当G(OB,C)>G(OF,C) ● C =电报 出现在 上世纪 末 因 G (出现/在,C) > G(出/现在,C) 故 Seg = 出现/在
训练过程 第一步:用FMM对语料进行预切分 第二步:用BMM发现预切分语料中的最长OAS, 然后用类 ‘gap’ 屏蔽掉全部OAS 第三步:用上述语料训练一个NBC分类器 第四步:在语料中逐个打开gap, 并通过NBC分类器来确定每个OAS的切分 第五步:利用自动消歧后的语料训练一个分词的N元模型,使之具有OAS消歧能力
实验结果 Naïve Bayesian Classifier (NBC) l=0 l=1 l=2 r=0 NBC(0,0) NBC(1,0) FMM BMM 规则+FMM 规则+BMM NBC (0,0) 投票制 73.1% 71.5% 90.7% 91.3% 93.7% 94.1% 测试语料:1997年人民日报,460,000字次, 或247,000词次
不同系统的比较 测试集: 52,375词次, 743 个 OAS t-test:p<=1.9e-7 纵坐标为错误个数,我们的系统叫LSP
(2)语块分析 CoNLL-2000 (Conference on Natural Language Learning) http://pi0657.kub.nl/~signll/conll.html 语块分析可视为标注问题(Abney, 91) 用标记表示每个词在不同类语块中的位置: I-X:X类语块中的一个词 B-X:连续X类语块中的第一个词 O:语块以外的一个词/标记(如标点符号) 11种语块,标记集共含23个标记
英文语块分析的评测 训练集: WSJ Sec. 15-18 Penn Treebank 测试集: WSJ Sec. 20 of Penn Treebank Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000 shared task: Chunking. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000.
CoNLL-2000评测结果 SYSTEM P (%) R (%) F (%) Kudoh & Matsumoto 93,45 93.51 93.48 Van Helteren 93.13 93.32 Tjong Kim Seng 94.04 91.00 92.50 Zhou, Tey & Su 91.99 92.25 92.12 Johansson 86.24 88.25 87.23 Valain & Day 88.82 82.91 85.76 Baseline 72.58 82.14 77.07 Baseline performance:Selecting the chunk tag most frequently associated with a POS rag. The top three systems use compound approach.
汉语语块标注规范(spec) 定义了11种语块:NP, VP, ADJP, ADVP, PP, SP, MP, TP , CONJP, INTJP, INDP O (Outside) 标记: “的,得,和,与”,标点符号 举例: [TP 前/f 两/m 年/q] ,/w [NP 我/r] [PP 跟/p] [NP 邻村/n] 的/u [NP 建筑队/n] [VP 到/v] [NP 焦作/ns] [PP 给/p] [NP 人/n] [VP 盖/v] [NP 房子/n] 。/w
难在哪里?——边界歧义 ●[TP 当年/t] [NP “/w 知青/n ”/w 人生/n 经历/n] 的/u [NP 节目/n] [NP 收听率/n] [ADJP 很/d 高/a] 。 ● [PP 对/p ] [VP 驻/v] [NP 艰苦/a 地区/n] [NP 部队/n 官兵/n ] [NP 生活/vn] [VP 历来/d 十分/m 重视/v] 。 ●[NP 十五大/j 精神/n] ,/w [VP 使/v] [NP 京剧/n] [NP 步履/n] [VP 坚实/a 地/u 迈向/v] … ● [NP 记者/n] [VP 住/v] 的/u [NP 公寓/n] [NP 楼道/n] [SP 里/f] [VP 写/v 着/u] …
语块分析的实验设计 例句:[NP 珠海/ns] 的/u [NP 立体/a 交通/n 框架/n] [VP 已/d 初具规模/v 了/u] CFG规则:r1=ns__NP, r2= u__O, r3= a_n_n__NP, r4=d_v_u__VP (1) FMM:CFG规则的正向最大匹配 (2) FMM+规则裁剪: 规则增益 G(r)=Nc(r)-Ne(r)≥δ (3) PCFG:C*=argmaxC∏i=1…k P(ri)
语块分析的实验设计 (4) HMM:令W,T,C 代表词、词性和语块序列 C*=argmaxC P(C|W,T) =argmaxC P(W|C,T)P(C,T)/P(W,T) =argmaxC P(W|C,T)P(C,T) 三元组 <ti ,mi ,xi > 表示每个词的词性、语块边界和语块类型,而每个语块的生成规则 r,i = {…<ti ,mi ,xi >…} 则 P(W|C,T) ≈ ∏i=1…m P(wi|ti,mi,xi) P(C,T)≈ P(r1)P(r2|r1) ∏i=3…k P(ri|ri-2ri-1)
优选的CFG规则 规则 r G(r) d_v__VP 302 n_n__NP 194 vn_n__NP 109 ad_v__VP 97 v_v__VP 81
淘汰的CFG规则 规则 r G(r) n_w__NP -105 v_n__NP -99 n_v__NP -83 p_v__PP -80 p_n__PP -73
数据概况 原始语料:1998 年1月人民日报(北大POS标注) 语块标注结果: 数据 标记数 (tokens) 语块数 (chunks) (outsides) 平均长度 (不包括O) 全部 502,141 259,843 104,691 1.530 训练集 444,777 229,989 92,839 调试集 30,954 15,975 6,359 1.540 测试集 26,410 13,879 5,493 1.507
实验结果 Bosch & Buchholz(ACL02)证明,当训练集达5万句时,仅用‘词例’的性能超过了‘词性’ 模型 FMM FMM+ 规则裁剪 PCFG HMM 1-gram 3-gram F (%) 35.88 69.45 81.44 86.82 88.39 F≈70% 是CFG分析系统的平均水平, PCFG令F 值进一步提升12点 “HMM(1-gram)”的F 值比PCFG高出5. 4个点,主要是词例知识的贡献 Bosch & Buchholz(ACL02)证明,当训练集达5万句时,仅用‘词例’的性能超过了‘词性’ Shallow parsing on the basis of words only: A case study. 1)当训练集规模=2万~5万句时,仅用‘词例’的chunker性能超过‘词性’; 2)‘词性+词例’比单独用‘词性’或‘词例’的性能都更好。
提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论
NLP的语言知识 面向机器 面向人 面向任务 面向知识 词典 句法 语义 篇章 基于词例 基于词类/语义类
新词识别:构词概率 构词概率 举 例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 举 例 (解,1) 0.679 解说3 解答11 解开5 解剖学2 解码2 解惑4 (解,2) 0.025 调制解调器2 不解之缘2 排忧解难9 慷慨解囊2 (解,0) 0.296 谅解8 和解12 瓦解2 理解101 见解16 了解274 (解,-1) 0.012 (难 解 的)3 (学者 解 梦)1 (忧 解 过)1 (以 解 企业)2 (,解 了)1 (民 解 愁) 1
新词识别:构词类比度 结 成-1 4 结/成交 结/成果 结/成婚 结/成为 44 84 981 274 1588 2770 结 成-1 4 结/成交 结/成果 结/成婚 结/成为 44 84 981 274 1588 2770 typ(X*) typ(Y*) tok(XZ) tok(YZ) tok(X*) tok(Y*) 结 核-1 3 结/核算 结/核对 结/核实 44 40 32 36 1588 507 结 作-1 5 结/作业 结/作成 结/作为 结/作对 结/作案 44 46 615 41 1588 2205 结 体-0 4 集结/体 连结/体 团结/体 总结/体 23 90 368 340 431 1683
两种语言知识 1)面向:任务 知识 2)对象:大规模真实文本 受限的规范语言 2)表示:概率化参数模型 句法-语义规则 面向机器的语言知识 面向人的语言知 1)面向:任务 知识 2)对象:大规模真实文本 受限的规范语言 2)表示:概率化参数模型 句法-语义规则 3)词例知识:是 基于词类/语义类 4)上下文相关:是 一般上下文无关 5)颗粒度:极细 粗 6)覆盖面:宽 窄 7)获取方式:自动/半自动 语言学家语感/直觉 8)评测: 准绳和动力 例不十法不立, 例外不十法不破
路在何方? 重新认识NLP的技术现状和应用需求 摆脱句法-语义传统理念的束缚 扎牢底层核心技术,打造高性能应用系统 NLP的主流技术: ● 词例知识 ● 概率参数模型 ● 统计机器学习
谢谢!