非规范化文本处理 张奇 复旦大学
非规范文本处理 非规范文本现象频繁出现 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。 李教授非常professional,我们很fan他。 中国石油天然气有限公司中石油。 累觉不爱
我们的工作 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014)
中英文混合文本词性标注 英文单词或者字母经常出现在中文文本中 例子 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android” 出现在日常的对话沟通中,包括电子邮件和即时通讯软件 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词 例子 提着行李在time square (NN) 的星巴克蹭网。 于是整个场面被我hold (VV)住了。 你微博忘记At (VV)他了。
中英文混合文本词性标注 难点 如何确定词性标记集?英文还是中文? OOV如何处理? 英文单词词性可以转换:我们出去Happy一下。
基于动态特征的序列标注方法 词性标注 序列标注问题 {B, I, E, S} {B-NN, I-NN, E-NN, S-NN, ...}. 静态特征
动态特征 使用词级别的特征,以帮助提高中文词性标注的准确率 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等 动态特征 可在纯中文语料上训练! 如果当前字是 “ Apple”, 则: POS−1=CC POS−2=NR WORD−1=“和” LEN−2=2
实验 模型:序列标注模型 标注算法:Viterbi 训练算法:在线PA 标记集:{B, I, E, S}
识别命名实体简称 命名实体简称示例 简称在文本中的比例 现有方法 北京大学 北大 中国石油天然气集团公司 中石油 中国国际航空公司 国航 新闻文本:20%的句子含有简称 UGC:更多 现有方法 基于数据的方法:需要大量(平行)语料 基于序列标注的方法:难以对长距离依赖关系建模
利用一阶谓词模型识别实体简称 将简称的生成建模为字的删除和保留操作 将语言特征和操作间关系用逻辑公式表示 用MLN进行参数学习和预测 Two constants: Anna (A) and Bob (B) Weight of formula i No. of true groundings of formula i in x Cancer(A) Smokes(A) Friends(A,A) Friends(B,A) Smokes(B) Friends(A,B) Cancer(B) Friends(B,B)
构建一阶谓词公式 局部特征 全局特征:表示可以同时删去若干个字 词汇特征:字或词的上下文,如 距离和位置特征,说明实体的哪个部分可以省略 character(i,c+) ^ entityType(t+) drop(i) character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i) 距离和位置特征,说明实体的哪个部分可以省略 character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+) drop(i) 后缀特征,说明简称中可以没有后缀 character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or sufOrg(j) or sufGov(j)) drop(i) 全局特征:表示可以同时删去若干个字 character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^ cwMap(i + 1, j) drop(i + 1)
实验 训练和测试数据 工具 利用正则表达式从百度百科抓取 利用搜索引擎抓取 含有5万多简称/实体对 中文分词:FudanNLP 输入 “复旦大学 简称” 含有5万多简称/实体对 工具 中文分词:FudanNLP MLN:thebeast
中英文混合文本规范化 微博中英语单词分类统计 采用分而治之策略加以处理 In-vocabulary English words:翻译成中文 Out-of-vocabulary English words :分类,如人名,机构名……
词语翻译 翻译模型:从训练数据中计算:GIZA++ 语言模型:神经语言模型
未登录词分类 假设1: 属于相同类别的词语有相近的上下文 假设2: 词语及其属性描述倾向于共现 采用Label propagation算法进行迭代
实验结果 测试数据 1000条微博 1200个英文词语 词语翻译 未登录词分类
CIKM 2014 Abstract Submission June 4, 2014 General Chairs: Paper Submission June 11, 2014 Acceptance Notification August 8, 2014 会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号 CIKM Cup General Chairs: Jianzhong Li: Harbin Institute of Technology, China X. Sean Wang: Fudan University, China PC Chairs (DB Track) Min Wang, Google (IR Track) Ian Soboroff NIST & Torsten Suel NYU Poly (KM Track) Minos Garofalakis, Tech Univ. Crete
WSDM 2015 复旦皇冠酒店
Questions? Thanks!