Exploring Segment Representations for Neural Segmentation Models

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

Exploring Segment Representations for Neural Segmentation Models Yijia Liu, Wanxiang Che, Jiang Guo, Bing Qin, and Ting Liu Research Center for Social Computing and Information Retrieval Harbin Institute of Technology 各位下午好,我是来至哈尔滨工业大学的刘一佳,我们论文的题目是exploring segment representations for neural segmentation models。

Problem: NLP Segmentation Problem 我们的这项工作关注的是自然语言处理中的分割问题。很多自然语言处理任务都可以用分割问题建模,比如中文分词,命名实体识别。

Problem: NLP Segmentation Problem input is a sequence of elements segmentation is a sequence of segment 𝐒=( 𝑠 1 , 𝑠 2 , …, 𝑠 𝑝 ) a segment is a tuple 𝑠= (𝑢, 𝑣, 𝑦) 𝑢: the beginning position 𝑣: the ending position 𝑦: the label associated with the segment (optional) constrained on 𝑣 𝑖 +1= 𝑢 𝑖+1 形式化地,我们可以把分割问题定义为连续片段的序列,每个片段是一个三元组(u,v,y),其中u是片段开始,v是片段结束,y是标签。

Motivating: Can we use word embedding in CWS? 浦东开发与建设 浦东 / 开发 / 与 / 建设 Pudong development and construction 我们这项工作的主要动机是如下一个问题: 我们能不能在中文分词中使用词向量呢? 这实际是一个鸡生蛋、蛋生鸡的问题。

Motivating: Can we use word embedding in CWS? To achieve this gold, we need to access the segment (the potential word) during inference to represent the segment 为了达到这个目标,我们需要在模型的解码过程中:既能够获得潜在的词,也能够对应对其进行表示。

Motivating: Can we use word embedding in CWS? To achieve this gold, we need to access the segment (the potential word) during inference to represent the segment in “浦东开发与建设” “浦东” is a potential word structure prediction segment representation “浦东”: [0.5, 0.3, 0.6, …] “虹桥”: [0.5, 0.2, 0.5, …] they have similar syntactic/semantic function. 而,这两个模型的相互作用方式应该是类似这样的。 对于“浦东开发与建设”这个句子,我们的结构预测模型告诉我们浦东是一个潜在的词,而我们的片段表示模型将其进行表示,而更理想的是,这种片段表示能够为我们提供一些上下文相似性等信息。

Motivating: Can we use word embedding in CWS? To achieve this gold, we need to access the segment (the potential word) during inference to represent the segment in “浦东开发与建设” “浦东” is a potential word semi-Markov CRF deep learning “浦东”: [0.5, 0.3, 0.6, …] “虹桥”: [0.5, 0.2, 0.5, …] they have similar syntactic/semantic function. 在这项工作中,我们的结构预测模型是semi-Markov CRF,而我们用deeplearning 模型对片段表示进行建模。

Refresh on semi-CRF semi-CRF model the conditional probability of 𝑆 as 𝑝 𝑆 𝑋 = 1 𝑍 exp 𝑊Φ 𝑆,𝑋 by restricting segment representation within on certain segment, Φ(𝑆,𝑋) can be decomposed as 𝑖 𝑝 𝜙 𝑠 𝑖 ,𝑋 core problem in achieving good segment performance Representing 𝝓( 𝒔 𝒊 ,𝑿) Semi-crf是直接建模给定输入的条件下输出分割序列的概率。如果我们在解码过程中把我们考虑的信息限制在一个片段内,\phi可以表示成加和的形式。 然后,我们可以发现,关键问题在于如何表示phi。 而我们工作的重点也在关注如何表示phi

(Old-school) 𝜙 𝑠 𝑖 ,𝑋 representation crf styled features: input unit level information e.g.: character semi-crf styled features: segment-level information e.g.: length of the segment suffer from sparsity and can not efficient utilizing the unlabeled data 传统的\phi的表示用一种稀疏离散的特征向量表示。这些特征一般来自输入级别的特征,比如字等等。 另一种特征通常是片段级别的特征。 但这种特征需要人工设计比较好的有泛化性的特征。

Neuralized 𝜙 𝑠 𝑖 ,𝑋 representing neural crf styled features: composing the representation of input units into a vector handling variable length nature 𝑆𝐶𝑂𝑀 𝑃 𝑖 neural semi-crf styled features: embed the entire segment learning from labeled/unlabeled data 𝑆𝐸𝑀 𝐵 𝑖 今年来使用神经网络进行表示学习是一个研究的热点。 主要原因在于两点 网络结构可以对于自然语言的组合特性进行建模 神经网络可以通过在大规模数据上学习分布式表示 这项工作中关注的使用神经网络对片段进行表示也尝试从这两个方面出发。 一个是采用神经网络,对输入单元进行建模,将输入单元组合成一个向量表示。 另一个则是对片段采用一种嵌入的方式直接进行表示

Composing Input Units 𝑆𝐶𝑂𝑀 𝑃 𝑖 =𝑁𝑒𝑡( 𝑥 𝑢 , 𝑥 𝑢+1 ,…, 𝑥 𝑣 ) Net SRNN SCNN SCONCATE 在对输入单元进行建模组合时,我们尝试采用了三种网络结构。Rnn,cnn以及简单拼接。 由于片段具有变长的特性,我们的网络模型应该能够对变长输入进行建模。Rnn和cnn都可以很好处理这一特性。 对于简单拼接,我们在semi-CRF解码过程中往往设置一个最大长度。在这种情况下,我们可以用部零的方法将变长输入的建模变成定长输入的建模。 这样,我们就能够获得输入单元组合的一种表示。

Embedding Entire Segment 𝑆𝐸𝑀 𝐵 𝑖 =𝑙𝑜𝑜𝑘𝑢𝑝( 𝑥 𝑢 𝑥 𝑢+1 … 𝑥 𝑣 ) Problem: where did the embedding come from? Answer 1: learning from training data [overfitting] Answer 2: learning from unlabeled but auto-segmented data auto-segmented data: homogeneous or heterogeneous? 到了整个片段的表示,我们采用一种查表的片段嵌入表示方法。 这种方法回到了我们最早的问题,在分词时如何用词向量。这里的词向量应该从哪获得。 一种方式是用从训练数据获得,但这种方式回答来严重的过拟合。 另一种方式是在很多semi-supervised learning方法中经常使用,就是用基线模型自动地分析大规模文本。然后把自动结果当成特征输入。 所以,我们的另一种获得片段嵌入的是直接在自动分析大规模文本上学习片段嵌入。

Final Model 我们最终表示片段的模型是输入单元组合网络以及片段嵌入进行组合获得的。

Experiments Two typical NLP segmentation tasks: NER and CWS Baselines: sparse feature CRF neural sequence labeling neural CRF 我们用三个基线模型。 分别是:传统稀疏特征的模型 神经网络序列标注 以及神经网咯crf

w/ Input Units Composition only structure predication models outperform classification but difference is not significant within structure models 我们的只采用输入单元组合网络的结果。 我们发现如果只使用输入单元的信息,neural semi-crf取得了比nn-label更好的性能,但是基本与nn-crf性能相似。 我们认为这主要是由于两者都是结构预测模型。而且都没有利用完整片段的信息。

w/ Segment Embedding: Learning from the Training data? severe overfitting initialize with embedding solve this problem 接下来的实验中,我们尝试把片段表示加入模型。 我们首先尝试从training data中获得segment,实验中,这样的模型不出意外地过拟合了。 但如果我们用从自动segment的数据上学习的片段嵌入作为初始化。这样的模型的性能就变得比较正常了。

w/ Segment Embedding: Auto-segmented data from Homo- or Hetero- baseline Generally, they all help Hetero- is a little better than Homo- baseline confirmed with boosting in machine learning 然后我们尝试使用不同的基线模型获得自动切分数据。 其中包括传统稀疏特征的模型以及我们的neural semi-CRF baseline。 实验发现如果自动切分数据是从异构的稀疏特征的模型红学习到的,带来的提升更明显。

Final Result Using segment-level representation greatly improve the performance 最后,我们把片段嵌入加入我们的模型,我们发现加入片段嵌入后,ner可以获得多于0.7个点的提升,而分词上多于接近2个点提升

Final Result (compare w/ NER SOTA) achieve comparable performance without domain-specific knowledge

Final Result (compare w/ CWS SOTA) achieve SOTA on two datasets

Conclusion We thoroughly study representing the segment in neural semi-CRF SCONCATE is comparable with SRNN but runs faster Segment embedding greatly improve the performance Our code can be found at: https://github.com/ExpResults/segrep-for- nn-semicrf

Thanks and Questions!