报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理

Slides:



Advertisements
Similar presentations
第二单元 大珠小珠落玉盘 阅读与欣赏 复习要点 1. 了解古典诗词文学形式的特点。 2. 概括古典诗词中人物形象、景物形象的特点;理解古典诗词中抒发的 情感和思想内涵。 3. 了解作品绘景、叙事、写人、抒情所运用的技巧,品味作品中精妙的 语言。 4. 掌握有关修辞和动静结合以及衬托等知识。 复法指导.
Advertisements

陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )
人教新课标小学语文五年级下册第二组 祖父的园子 地掌中心校 郭 丽.
小蝌蚪找妈妈.
聆听美的声音 第一篇 听雨轩 表达意志和理想的诗,一般都显得壮阔铿锵,而描写乡愁和爱情的作品,一般都显得细腻而柔绵。 阅读领航第3小组
寻人启事 我是小蝌蚪,当我看到别的小动物们欢快地和自己的妈妈一起玩耍时,我多羡慕呀!可我不知道我的妈妈是谁?它在哪?听说咱们班的小朋友是最聪明的,请你们帮我找找妈妈吧!
目的要求:骨骼肌的形态与结构、功能与分布 重点难点:肌的形态与结构,主要肌的分布、名称
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
第一章 会计信息系统 第一节 计算机会计概述.
姚天顺 自然语言处理实验室 东北大学 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学
老子的素朴 厦门大学计算机科学系 庄朝晖.
王晨 指导教师:张军平副教授 复旦大学计算机科学技术学院 上海市智能信息处理重点实验室
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
教材:模式识别(第三版) 张学工编著 清华大学出版社
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
汉语自动分词— 中文信息处理的一项战略任务
24 玩具柜台前的孩子.
端午的鸭蛋 制作者 浙江省余姚市兰江中学 徐益明.
2008秋季四年级 语文期末笔试卷质量分析 主讲人:华美英
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
2011年全国中等职业学校医药卫生类专业 “创新杯”教师说课比赛
猜猜看 谜面:石刻的历史 凝固的音乐 谜底:A 绘画 B 雕塑 C 建筑 选择:[ C ]
清明节 端午节 春节 重阳节 中秋节 七夕节 元宵节.
姓 名: 刘永鹏 专 业: 计算机应用 指导老师:王宗敏 教授 李润知 讲师
亲爱的爸爸妈妈 聂华苓. 亲爱的爸爸妈妈 聂华苓 聂华苓,女,美国华裔作家,1921年生,湖北武汉人。1949年去台湾,开始发表作品。1964年赴美定居,代表作《台湾轶事》。聂华苓的作品以深邃的历史感表现现代中国的沦桑变化,抒写台湾中下层人们的乡愁和海外浪子的悲歌。创作坚持“溶传统于现代,溶西方于中国”的艺术追求。
2008年安徽省初中毕业学业考试 语 文 (试题卷) 注意事项:
诗四首.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
Applications of Digital Signal Processing
统计机器翻译简介 刘群
本科生医保资料的提交.
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
机器翻译前沿动态 张家俊 中国科学院自动化研究所
당신을 향한 노래.
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
ARTcode: Preserve Art and Code In Any Image
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
Podcasting & Chinese Teaching and Learning 网播和中文教学
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
文字探勘與知識工程 Text Mining & Knowledge Engineering
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
现代信息检索 Modern Information Retrieval
報告人:吳家麟教授 資訊網路與多媒體研究所 資訊工程學系暨研究所
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
中科院自动化所评测技术报告(SYSTEM II)
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
开题报告: 一种基于文本蕴含的选择题问题求解方法
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
中國科技大學 臺北校區日間部 100年複合型災害防救逃生演練
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
阿长与《山海经》 —— 鲁 迅.
基于MapReduce的大规模本体匹配方法研究
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
暑期活动见闻 程龚.
畢業資格審查系統 操作步驟說明.
香港道教聯合會圓玄學院石圍角小學 中國清朝衣服 By:蔡思敏.梁嘉敏.杭依澄.
最苦与最乐 陕西师范大学附属中学 陈 新.
序贯监督学习框架下的 耀斑短期预报 哈尔滨工业大学 黄鑫.
英文文本分析入门.
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
张华平 博士 副教授 研究生导师 计算机语言信息处理研究所 副所长 Beijing
蒙公一中韦群珍.
阶段性词汇训练3 上海海事大学信息工程学院.
《神经网络与深度学习》 第10章 模型独立的学习方式
Some discussions on Entity Identification
Presentation transcript:

报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理 NLP&MT 基于上下文和语义信息的跨领域中文分词 报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理

NLP&MT 主要内容 中文分词概况 中文分词的一大挑战 本文主要方法 参考文献

NLP&MT 中文分词概况 中文分词的主要技术: 基于规则的方法 中文分词的技术难点: 基于统计的方法 规则与统计相结合的方法 基于序列标注的机器学习方法[1-2] 基于字标注的方法[3-5] 基于子词标注的方法[6-8] 本文所用的方法 中文分词的技术难点: 未登录词、歧义、 规范等

NLP&MT 主要内容 中文分词概况 中文分词的新挑战 本文主要方法 参考文献

NLP&MT 中文分词的一大挑战 在现实应用中,需要分词的绝大部分文本并不带有来源、主题等标记数据[9] 。 分词系统不能预先把所有可能的文本种类都训练好[9] 。 分词系统能贡献最高价值,发挥最高效益时,是针对新主题,新来源,带有许多未登录词的文本[9]。 因此,领域适应性已经成为中文分词面临的一大挑战[9] 。 跨领域分词的一个显著特点是: 一个特定领域文章中的通用词和术语较多,这些领域性OOV是基于某个特定领域的,并且可能会在其所属领域的某一上下文内多次出现。

NLP&MT 主要内容 中文分词概况 中文分词的新挑战 模型及特征 上下文及语义信息 分词算法流程 实验结果及总结 本文主要方法 参考文献

NLP&MT 本文主要方法 模型及特征 上下文及语义信息 分词算法流程 实验结果及总结

NLP&MT 本文主要方法 ——模型及特征 模型: 特征模板: 本文主要方法 ——模型及特征 模型: 本文采用字词联合的CRFs模型。先将使用基于字的CRFs获得的候选词放入词图,然后再使用基于词的CRFs模型对词图中的词进行标注。 训练时,使用最大似然估计,为了避免训练过载,使用高斯先验对参数进行规格化。 解码时,用Viterbi算法。 特征模板: 基于字的CRFs特征模板 基于词的CRFs特征模板

NLP&MT 本文主要方法 ——模型及特征 基于字的CRFs: 本文主要方法 ——模型及特征 基于字的CRFs: 使用的特征模板:C-1, C0, C1, C-1C0, C0C1, C-1C1 ,T-1T0T1,并且加入AV[16]特征。 表1 基于字的CRFs特征模板

NLP&MT 本文主要方法 ——模型及特征 基于词的CRFs: 本文主要方法 ——模型及特征 基于词的CRFs: 采用的具体特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示词形,T表示词性,下标0和1分别表示相邻两个词的前词和后词。 表2 基于词的CRFs特征模板

NLP&MT 本文主要方法 模型及特征 上下文及语义信息 分词算法流程 实验结果及总结

NLP&MT 本文主要方法 ——上下文及语义信息 上下文信息: 提出假设:如果某个词在篇章中出现了一次,那么将会增加它下一次出现的可能性。 本文主要方法 ——上下文及语义信息 上下文信息: 提出假设:如果某个词在篇章中出现了一次,那么将会增加它下一次出现的可能性。 也就是说,若某个字串在上下文中多次被当作候选词,则它很可能就是一个词。对此,本文用上下文变量来量化这个假设。 上下文变量记录候选词的词形(w),词性(t),词出现的难易程度(Cost),该词作为候选词的频数(Frequency),该词作为最终切分路径中词节点的频数(rNum)。 “日本金融特任大臣①龟井静香 (Shizuka Kamei) 周五 (3月19日) 发表讲话……②龟井静香此前就一直呼吁推出新一轮的大规模经济刺激计划……③龟井静香表示,昨日发布的土地价格调查报告显示……④龟井静香还呼吁日本央行直接买入国债来为政府赤字提供融资……金融市场对⑤龟井静香的评论应该不会有太大反应……”.

NLP&MT 本文主要方法 ——上下文及语义信息 语义信息: Al05A01= 模范 标兵 表率 榜样 师表 轨范 楷范 英模 典型 丰碑 本文主要方法 ——上下文及语义信息 语义信息: Al05A01= 模范 标兵 表率 榜样 师表 轨范 楷范 英模 典型 丰碑 Al05A02= 劳模 劳动模范 在查找某个候选词在词林中的同义词时,遵循着就近原则,因为两个同义词集合距离越近,其词义信息越接近。 表3 同义词词林编码规范

NLP&MT 本文主要方法 模型及特征 上下文及语义信息 分词算法流程 实验结果及总结

NLP&MT 本文主要方法 ——分词算法流程 跨领域分词的分词算法流程如下: 本文主要方法 ——分词算法流程 跨领域分词的分词算法流程如下: Step1. 使用基于字的CRFs得到3-Best路径,并且将路径中所有的节点加入到词图中。 图1 词图示例

NLP&MT 本文主要方法 ——分词算法流程 Step2. 为词图中的每个候选词赋予属性和代价。具体步骤为: 本文主要方法 ——分词算法流程 Step2. 为词图中的每个候选词赋予属性和代价。具体步骤为: ①若候选词为系统词典中的词,则直接将该词在系统词典中的属性及词代价赋给该候选词; ②若候选词不在系统词典中,但在上下文信息词典中,则采用公式(1)对该候选词的出现代价进行加权; (1) 其中, frequency是该候选词出现的频率; rNum是候选词作为正确结果的频率; cost’(w)是分词路径中候选词的出现难易程度;cost0(w)为上下文变量表中词条的原始代价。

NLP&MT 本文主要方法 ——分词算法流程 本文主要方法 ——分词算法流程 ③若候选词不在上述两个词典中,则到同义词词林中查找该候选词的同义词,若能在系统词典中找到其同义词,则用系统词典中该同义词的相关信息代替该候选词相对应的信息; ④若无法通过上述方法找到或代替该候选词,则用未登录词分类处理该候选词。具体分为四类:汉字,字母,数字,标点符号。它们的词性,分别赋为名词,字符串,数字,标点,而词出现的代价为词典中该类词性词语代价的平均值。 Step3. 构建词图后,用Viterbi算法根据公式(4)计算每条路径的分词代价,找到一条最佳路径,即代价最小的分词路径。公式(4)中的Cost(wi) 和TransCost(ti,ti+1) 分别通过公式(2)和公式(3)计算得到。 (2)

NLP&MT 本文主要方法 ——分词算法流程 (3) (4) 本文主要方法 ——分词算法流程 (3) (4) 其中,U(w)为关于当前词w的一元特征集合, B(t1,t2)是关于相邻的两个词的属性(这里仅为词性)的二元特征集合,λfk为特征fk在模型文件中的相应权重,变量factor为将特征权重转换为代价的放大系数。从以上公式可以看出,由于所有的特征函数都为二值特征函数,所以在计算词条的代价时,词出现的代价等于该词能表示的所有一元特征权重之和,属性集之间的转移代价为两属性集所能表示的二元特征函数的权重之和。

NLP&MT 本文主要方法 模型及特征 上下文及语义信息 分词算法流程 实验结果及总结

NLP&MT 本文主要方法 ——实验结果及总结 实验数据: 本文主要方法 ——实验结果及总结 实验数据: 系统词典是从2000年1-6月份的人民日报中抽取出来的,词性体系为相应的北大词性体系,词典中共含有85,000个词。 本文采用的语义资源是同义词词林(扩展版),共包含77,343条词语。http://ir.hit.edu.cn SIGHAN 2010的跨领域简体中文训练和测试语料。 训练基于词图的CRFs模型时,所用的语料是有词性标注的评测语料(1998年1月份人民日报)。

NLP&MT 本文主要方法 ——实验结果及总结

NLP&MT 本文主要方法 ——实验结果及总结 本文主要方法 ——实验结果及总结 该方法用基于字标注的CRFs模型得到3-Best路径,将路径中包含的所有候选词添加到词图中,充分利用篇章的上下文信息和同义词语义信息,在词的层面上从词图中选择代价最小的路径作为最终的分词结果。 该方法很好地发挥了基于字标注的方法在发现未登录词上的能力,而且在分词过程中充分利用词汇的领域性信息,提高了领域性分词的分词结果。 用Bakeoff 2010简体中文测试语料进行开式测试,结果表明:该方法在四个测试领域中的三个领域的F值和OOV的召回率好于2010参加评测的最好成绩。 本文获国家自然科学基金(No.61173100,No.61173101)资助。

NLP&MT 主要内容 中文分词概况 中文分词的新挑战 本文主要方法 参考文献

NLP&MT 参考文献 [1] Xue Nianwen. Chinese word segmentation as character tagging. Computational Linguistics, 2003, 8(1): 29-48. [2] Lafferty J, McCallum A, Pereira F. probabilistic models for segmenting and labeling sequence data // Proceedings of ICML2001. Conditional Random Fields: San Francisco: Morgan Kaufmann, 2001: 282-289 [3] Tseng H, Chang Pichuan, Andrew G, et al. A conditional random field word segmenter for SIGHAN bakeoff 2005 // Proc of the 4th SIGHAN Workshop on Chinese Language Processing. Jeju Island: ACL, 2005: 168–171 [4] Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random fields // Proc of COLING 2004. San Francisco: Morgan Kaufmann, 2004: 562-568 [5] Low J K, Ng H T, Guo Wenyuan. A maximum entropy approach to Chinese word segmentation // Proc of the 4th SIGHAN Workshop on Chinese Language Processing. Jeju Island: ACL, 2005: 161–164 [6] Huang Degen, Tong Deqin. Context Information and Fragments Based Cross-Domain Word Segmentation. China Communications, 2012, 9 (3): 49-57 [7] Zhang Ruiqiang, Kikui Genichiro, Sumita Eiichiro. Subword-based tagging by conditional random fields for Chinese word segmentation //Proc of HLT-NAACL-2006. Morristown, NJ: ACL, 2006: 193-196 [8] 黄德根, 焦世斗, 周惠巍. 基于子词的双层CRFs中文分词. 计算机研究与发展, 2010, 47(5): 962-968 [9] 黄居仁. 瓶颈_挑战_与转机_中文分词研究的新思维//中国计算机语言学研究前沿进展(2007-2009): 北京: 中国中文信息学会, 2009: 14-19 [10] Gao Qin, Vogel S. A Multi-layer Chinese Word Segmentation System Optimized for Out-of-domain Tasks // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 210-215 [11] Huang Degen, Tong Deqin, Luo Yanyan. HMM Revises Low Marginal Probability by CRF for Chinese Word Segmentation. [C] // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 216-220 [12] Zhang Chongyang, Chen Zhigang, Hu Guoping. A Chinese Word Segmentation System Based on Structured Support Vector Machine Utilization of Unlabeled Text Corpus // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 221-227 [13] Zhang Huaping, Gao Jian, Mo Qian, et al. Incporating New Words Detection with Chinese Word Segmentation // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 249-251

NLP&MT 感谢各位专家 请批评指正