非规范化文本处理 张奇 复旦大学.

Slides:



Advertisements
Similar presentations
软饮料概述 人文艺术系 石惠舟. 什么是饮料? 饮料概述 饮料是指以水为基本原料,由 不同的配方和制造工艺生产出 来,供人们直接饮用的液体食 品。 饮料 饮料除提供水分外,由于在不 同品种的饮料中含有不等量的 糖、酸、乳以及各种氨基酸、 维生素、无机盐等营养成分, 因此有一定的营养。
Advertisements

等可能性事件的概率(二) 上虞春晖中学数学组欢迎你! 1 本课件制作于 §10.5 等可能事件 的概率 ( 二 )
August 16, 2016 Huazhong University of Science & Technology 华中科技大学 欧阳康 非常高兴 共探人生价值与理想!
一、中国湿地面临的威胁 目前,湿地污染严重,湖泊 富营养化问题突出。随着社 会经济的快速发展,湿地污 染在很长时期内依然严重。 湿地污染 1.
1 南郭國小 翁正雄 95/06/09 教育部健康醫學學習網傳統醫 學學習館交流研習 資料來源:教育部六大學習網及簡介 健康醫學學習網及簡介.
第五单元 酒水知识与酒吧服务 主题三 蒸 馏 酒 —— 中国蒸馏酒. 蒸馏酒是把经过发酵的酿酒原料,经过一次或多次的蒸馏过 程提取的高酒度酒液。
C A D C D.
中國 (China) 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤.
4.体词 体词包括:名词,处所词,方位词,时间词,区别词,数词,量词以及一部分代词。.
延庆县“十二五”时期城乡基础设施 建设规划 2011年03月.
长江的开发 惠州市河南岸中学 谢国文.
申請赴大陸姊妹校 擔任交換學生 簡介及流程 朝陽科技大學 Chaoyang University of Technology.
鬼太郎 身為幽靈族後裔一員的鬼太郎,他出生的時候,父母便雙亡,不過他的爸爸化身為眼珠,陪伴著他。而鬼太郎與他的同伴貓女、臭鼠人等,為了維持妖怪與人類間的和平,他們將一一消滅邪惡的妖怪,守護這世界的和平。
科學論文 鰂魚涌街的衛生情況 作者:廖梓芯 學校:北角官立上午小學 班級:P.5A.
第四章 心理健康.
最新消息插播! 意見反應: 我是貴校學生的家長,請問貴校該給工讀生的薪水何時才肯發呢?現在已經是十一月中了,九月十月的薪水還沒入帳我們不知道是卡在哪個環節,但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租? …………………………………………………….? 請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣,不要等到年終或結案前才開始緊張。
國中適性輔導宣導 生涯導航 談國中學生適性輔導 石牌國中 輔導室葉嘉惠.
《成佛之道》序~第三章 圓融 /
專題報告製作 胡舉軍 助理教授 資訊管理學系 樹德科技大學
Tool Command Language --11级ACM班 金天行.
目标成就未来.
第十一章 真理与价值 主讲人:阎华荣.
歷史的耶穌 普通話學人之家 June 21, 2003.
103年高雄市自然與生活科技學習領域教學研習 動物單元的 教學理念與實踐 講師:屏東縣和平國小 周鳳文.
采编班的“三朵奇葩”? 精品团会主题.
东京城市建设史简述.
第2课 古代手工业的进步 课标:列举古代中国手工业发展的基本史实,认识古代中国手工业发展的特征.
大气的受热过程 周南中学.
1890年, 一艘名叫“马尔波罗号”的帆船在从新西兰驶往英国的途中,突然神秘地失踪了。 20年后,人们在火地岛海岸边发现了它。奇怪的是:船体原封未动,完好如初;船长航海日记的字迹仍然依稀可辨;就连那些死去多年的船员,也都“各在其位”,保持着当年在岗时的“姿势”; 1948年,一艘名为“乌兰格梅奇号”的荷兰货船,在通过马六甲海峡时,突然遇到海上风暴,当救助人员赶到时,船上所有人员都莫明其妙地死了。
博硕士研究生学位论文电子版 在线提交说明 华中师范大学图书馆
第七章 固 定 资 产.
氣候變遷對南台灣降雨造成之影響 研究背景 結果與討論 研究方法 結論 朱振豪1 、彭康豪1 、莊煌甲1 、邱俊彥2,* 研究目的
院系:政史学院历史系 班级:10级4班 学号: 姓名:蒋阿晴
翰林自然 六年級上學期 第二單元 聲音與樂器.
口才与思辨并重 专业与职业共扬 -----法学院 “口才训练营” 精品活动介绍.
恩典更新 羅15:1-13.
成员名单 陈丽 陈敏 杨娇 高丽莉 李亚金 吴沅娟 任津沙 张舒蓉.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
重点难点 参考文献 教学目标 一、中央集权国家的建立 二、秦始皇巩固统一的措施 三、统一的多民族封建国家的形成 练习与思考.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
組員: 陳曉東(2), 張梓錕(3), 蔡浩維(5), 鍾智灝(7), 馮浩然(8)
复旦俄语歌小组的成长历程 (上集) 徐士菊 周德庆 编制 制作 ,以后时有增补 配乐:小路Track 1/83.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
WSDM见闻 程龚.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
网络信息检索的基本方法.
第二章 登录UNIX操作系统.
C语言程序设计 主讲教师:陆幼利.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
三水同鄉會劉本章學校 數學科 年級: 三 、 四 年級 (低組) 學習範疇:度量 單元:時間和日期 單位:星期、年和月、日曆
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
单元17 钢 结 构 学习目标 (1)了解钢结构的特点。 (2)了解钢结构的发展现状。 (3)掌握钢结构的链接方式。
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
你没看到的开幕式 超越电视画面 来自现场的照片.
第4章 Excel电子表格制作软件 4.4 函数(一).
Liang Zhang, Jianmin Wang
Seminar 【Speaker】 Chung-Ming Kuan, Visiting Professor,
Deep Learning Research & Application Center
第六章 海洋中的混响.
Topic 1 Welcome to China! Section A.
全国食药监检验检测机构 信息直报系统 test.
汽车电器与控制设备 第0章 绪论.
創造不一樣的人生 -如何與身心障礙者接觸 新竹教育大學 薛明里.
Seminar 【Speaker】 Janet Currie, Professor of
辞典类 Oxford English Dictionary 牛津在线英语大辞典
園區多元智能教育中心 一年級課表 科園、龍山、實小
Presentation transcript:

非规范化文本处理 张奇 复旦大学

非规范文本处理 非规范文本现象频繁出现 向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。 李教授非常professional,我们很fan他。 中国石油天然气有限公司中石油。 累觉不爱

我们的工作 利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012) 利用一阶谓词模型识别命名实体简称 (IJCNLP 2013) 中英语混合文本规范化 (WSDM 2014)

中英文混合文本词性标注 英文单词或者字母经常出现在中文文本中 例子 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android” 出现在日常的对话沟通中,包括电子邮件和即时通讯软件 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词 例子 提着行李在time square (NN) 的星巴克蹭网。 于是整个场面被我hold (VV)住了。 你微博忘记At (VV)他了。

中英文混合文本词性标注 难点 如何确定词性标记集?英文还是中文? OOV如何处理? 英文单词词性可以转换:我们出去Happy一下。

基于动态特征的序列标注方法 词性标注  序列标注问题 {B, I, E, S} {B-NN, I-NN, E-NN, S-NN, ...}. 静态特征

动态特征 使用词级别的特征,以帮助提高中文词性标注的准确率 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等 动态特征 可在纯中文语料上训练! 如果当前字是 “ Apple”, 则: POS−1=CC POS−2=NR WORD−1=“和” LEN−2=2

实验 模型:序列标注模型 标注算法:Viterbi 训练算法:在线PA 标记集:{B, I, E, S}

识别命名实体简称 命名实体简称示例 简称在文本中的比例 现有方法 北京大学 北大 中国石油天然气集团公司 中石油 中国国际航空公司 国航 新闻文本:20%的句子含有简称 UGC:更多 现有方法 基于数据的方法:需要大量(平行)语料 基于序列标注的方法:难以对长距离依赖关系建模

利用一阶谓词模型识别实体简称 将简称的生成建模为字的删除和保留操作 将语言特征和操作间关系用逻辑公式表示 用MLN进行参数学习和预测 Two constants: Anna (A) and Bob (B) Weight of formula i No. of true groundings of formula i in x Cancer(A) Smokes(A) Friends(A,A) Friends(B,A) Smokes(B) Friends(A,B) Cancer(B) Friends(B,B)

构建一阶谓词公式 局部特征 全局特征:表示可以同时删去若干个字 词汇特征:字或词的上下文,如 距离和位置特征,说明实体的哪个部分可以省略 character(i,c+) ^ entityType(t+)  drop(i) character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j)  drop(i) 距离和位置特征,说明实体的哪个部分可以省略 character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+)  drop(i) 后缀特征,说明简称中可以没有后缀 character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or sufOrg(j) or sufGov(j))  drop(i) 全局特征:表示可以同时删去若干个字 character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^ cwMap(i + 1, j)  drop(i + 1)

实验 训练和测试数据 工具 利用正则表达式从百度百科抓取 利用搜索引擎抓取 含有5万多简称/实体对 中文分词:FudanNLP 输入 “复旦大学 简称” 含有5万多简称/实体对 工具 中文分词:FudanNLP MLN:thebeast

中英文混合文本规范化 微博中英语单词分类统计 采用分而治之策略加以处理 In-vocabulary English words:翻译成中文 Out-of-vocabulary English words :分类,如人名,机构名……

词语翻译 翻译模型:从训练数据中计算:GIZA++ 语言模型:神经语言模型

未登录词分类 假设1: 属于相同类别的词语有相近的上下文 假设2: 词语及其属性描述倾向于共现 采用Label propagation算法进行迭代

实验结果 测试数据 1000条微博 1200个英文词语 词语翻译 未登录词分类

CIKM 2014 Abstract Submission June 4, 2014 General Chairs: Paper Submission June 11, 2014 Acceptance Notification August 8, 2014 会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号 CIKM Cup General Chairs: Jianzhong Li: Harbin Institute of Technology, China X. Sean Wang: Fudan University, China PC Chairs (DB Track) Min Wang, Google (IR Track) Ian Soboroff NIST & Torsten Suel NYU Poly (KM Track) Minos Garofalakis, Tech Univ. Crete

WSDM 2015 复旦皇冠酒店

Questions? Thanks!