副词“都”用法自动识别研究 张静杰 昝红英 郑州大学自然语言处理实验室.

Slides:



Advertisements
Similar presentations
关于中国色情产业合法化的伦理学讨论 张雅萱 周嘉言 史翔瑞 詹智超.
Advertisements

1 债券融资业务拓展交流 债券业务部 二 O 一二年二月. 2 目 录  第一部分 债券融资业务概述  第二部分 东兴证券债券融资业务情况介绍及前景展望  第三部分 什么样的企业适合发债  第四部分 债券融资业务合作开发方式及激励探讨.
用藥常識知多少? 五乙李麗娜 心寶的故事 心寶哪裡錯了? 說一說藥袋上有什麼資訊? 姓名 怎麼用(一天使用幾次? ) 藥的用途對症嗎? 藥品和外觀 副作用 注意事項 保存期限與方法 成藥有沒有衛生署許可證字號.
轴对称(一) 课堂引入 仔细观察下列图片,思考这些图片有什么样 的特点.
创意鄱阳湖— 一种基于无形资源理念开发鄱阳湖的思考 以传奇背景音乐作为开场,体现创意创造传奇 南昌大学 黄细嘉
2012江苏历史高考 重点与热点考点分析与复习.
說 劍 《莊子‧雜篇》─ 第 一 組 賴泊錞 謝孟儒 張維真 羅苡芸
学校秋季常见传染病的防控 武进区疾病预防控制中心 防疫科.
防盜裝置  學生科技探究.
饮食中的平衡 酸 性 食 物 与 碱 性 食 物.
期末書面報告指定書籍 王鼎鈞回憶錄---昨天的雲
成才之路 · 语文 人教版 • 中国古代诗歌散文欣赏 路漫漫其修远兮 吾将上下而求索.
川信-丰盛系列集合资金信托计划 2016年3月.
古文選讀.
判断推理,必须学会这些 主讲老师:小胡胡 2016年3月25日20:00 YY频道:
农信社信贷产品实务技能提升培训.
订单合并拆分功能详解 荷叶.
高齡者道路交通事故特性與道安防制措施 研究計畫報告
我为何为我?——那些历史并没有消失,它们就存在于我们心灵最隐秘的地方,时时在引导我们的行为准则,在操纵着我们的喜怒哀乐。
校园信息管理系统 河北科技大学网络中心 2000/4/10.
第九讲 医院信息系统应用——住院子系统一.
是重要的感觉器官,有许多感觉器,具触觉、嗅觉功能,还能感受异性的性信息素。 触角由柄节、梗节和鞭节三部分组成。
项目亮点 融资方为AA级发债主体,是当地唯一的综合平台公司
小学生生活报 校内统一刊号 XG 年第三期 总第21期 双周报 学校:西天贡小学 主编:石晓雯 副主编:申海霞 李清香
复习 什么是结构? 结构是指事物的各个组成部分之间的有序搭配和排列。
補救教學實施策略 國立新竹教育大學 高淑芳.
新准则与老准则 主要变更内容.
植物辨識及分類 呂春森 基隆市立暖暖高級中學 植物辨識及分類 呂春森 基隆市立暖暖高級中學.
泰山不辭土壤故能成其大 河海不擇細流故能就其深.
第一单元 人在社会中生活 综合探究一 从地图上获取信息 第1课时 带着地图定向越野间.
人体的激素调节.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
主题七 关注三农,重视民生 .
第三课 闲话“家”常 1.
第二部分 人文地理 第一单元 人口与城市 第5课 城市化过程和特点. 第二部分 人文地理 第一单元 人口与城市 第5课 城市化过程和特点.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
华东师范大学 软件工程硕士答辩名单 时间:2016年5月14日、15日.
“华东师大数学系部分老同事活动”(辛卯聚会)记事
第五节 读图表述.
財團法人中華民國證券櫃檯買賣中心 交 易 部 中華民國101年8月
第四单元 当代国际社会 第八课 走进国际社会.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
2011年全国中等职业学校医药卫生类专业 “创新杯”教师说课比赛
管理好种公鸡提高雏鸡质量.
项脊轩志 归有光.
走进 莱 芜 制作人:楠楠.
第一节 正名——文字学与汉字学 第二节 本学期讲授内容及安排 附录:参考书目 作业
成才之路 · 语文 人教版 · 必修2 路漫漫其修远兮 吾将上下而求索.
腾冲叠水河瀑布 和来凤山公园 音乐:贝多芬——F大调浪漫曲 摄影、制作:曹珏 陈晓芬.
A B~A B
一、液压与气压传动的控制元件分类 1、按用途分类 根据控制元件在系统中的作用,可分为下几类: 方向控制阀 压力控制阀 3) 流量控制阀
第1节 光的干涉 (第2课时).
第4章 种群和群落 第3节 群落的结构 自主学习案   合作探究案 课后练习案. 第4章 种群和群落 第3节 群落的结构 自主学习案   合作探究案 课后练习案.
第四节 肱骨髁上骨折 (肱骨远端骨折).
人无信不立 业无信不兴 公路建设市场信用体系 建设综述 交通运输部公路局 交通运输部公路局
第十三章 收入和利润.
甲年基督聖體聖血節進堂詠 上主要以上等的麥麵養育選民, 用石縫中的野蜜飽飫他們。.
2016年度税收新政策解读 主讲 石敖 湖南省中税网天一税务师事务所 2018/11/7.
體育科教學軟件 乒乓球.
班級:財金一A 姓名:吳佩玲 學號:4990S024 指導老師:蔡享翰 老師
一、只要內心平靜, 生活中到處都有樂趣, 不論是在庭院中觀賞花卉、在靜夜裡讀書,或者是在郊外欣賞黃昏的稻田風光,李慈銘的︿越縵堂日記﹀裡傳達了這樣的訊息。 二、而劉鶚的︿大明湖﹀,則是帶我們到風景勝地大明湖,去領略湖光山色之美。 兩篇文章都表現出生活中的閒情逸趣,也啟迪我們要沉澱心靈,多與大自然接觸。
微信商城系统操作说明 色卡会智能门店.
06 无形资产投资环节的会计处理.
大綱:整數的加法 整數的減法 蘇奕君 台灣數位學習科技股份有限公司
教育部特殊教育通報網 學生異動、接收操作說明.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
知识点5---向量组的最大无关组 1. 最大线性无关组的定义 2. 向量组秩的定义及求法 向量组的秩和对应矩阵秩的关系 3.
國立政治大學 96學年度學雜費調整 第二次公聽會
知识点:交流接触器的结构和工作原理 主讲教师:冯泽虎.
创新机制 团结协作 稳步推进 病虫害专业化统防统治
Presentation transcript:

副词“都”用法自动识别研究 张静杰 昝红英 郑州大学自然语言处理实验室

目录 引言 副词“都”的用法描述 副词“都”的用法自动识别研究 结语 基于规则的副词“都”用法自动识别 基于统计的副词“都”用法自动识别 规则与统计相结合的副词“都”用法自动识别 结语 郑州大学自然语言处理实验室

引言 在现代汉语中,副词的句法功能相对比较简单,然而,一些常用副词不仅使用频率很高,而且用法丰富多样 对于副词研究,尤其是一些义项纷繁、用法灵活的常用副词,需要针对个例,作仔细的考察和对比 郑州大学自然语言处理实验室

引言 “都”主要有三个义项: 范围的总括 无论工作大小,我们都要把它做好。 表达语气 真抱歉,我都忘了你的名字了。 表时间 饭都凉了,快吃吧! 郑州大学自然语言处理实验室

1 副词“都”的用法描述 根据俞士汶等提出的“三位一体”构建现代汉语广义虚词知识库的思路,昝红英等初步构建了虚词用法词典、用法规则库以及用法标注语料库“三位一体”的现代汉语虚词知识库 副词“都”共有3个义项11个用法 郑州大学自然语言处理实验室

表1副词“都”的用法描述 d_dou_2d 用于表示让步的小句,引出表示主要意思的小句。<b> d_dou_3 ID 释义 用法 d_dou_1 表示总括全部。<b> 除问话以外,所总括的对象必须放在“都”前。也可以说“全都”,总括的意思更明显。<b> d_dou_1a 所总括的对象可以用表示任指的疑问指代词。<b> d_dou_1b 所总括的对象前可以用连词“不论、不管、无论、凡是、只要”。 <b><z> d_dou_1c 问话时总括的对象(疑问代词)放在“都”后。<b> d_dou_1d 表示总括全部。与“是”搭配。说明原因,有责备的意思。<b> 与“是”搭配。<b> d_dou_2 甚至。“都”轻读。<b> 修饰动词或动词短语。<z> d_dou_2a 甚至。“都”轻读。与“连”字同用,有强调语气的作用。<b> 与“连”字同用。<b> d_dou_2b “都”前后用同一个动词(前肯定,后否定)。<b>A~(不|没|没有|未|df)A 或 A~A(不|没|没有|未|df)。<z> d_dou_2c 一+量词+...~+动词(否定式)。<b> d_dou_2d 用于表示让步的小句,引出表示主要意思的小句。<b> d_dou_3 已经。<b> 句末常用“了”。 <b> 郑州大学自然语言处理实验室

1 副词“都”的用法描述 与表1相对应的副词“都”的用法规则描述: $都 @<d_dou1_1>→N ^N→v|a @<d_dou1_1a>→M ^M→谁|哪里|什么|怎么|哪儿|哪|<ry>|<ryw> @<d_dou1_1b>→M ^M→(不论|不管|无论|虽然|尽管|凡是|只要)*{,} @<d_dou1_1c>→NE ^N→谁|哪里|什么|怎么|哪儿|哪|<ry>|<ryw> ^E→? @<d_dou1_1d>→FR ^F→~ ^R→是 @<d_dou1_2>→N ^N→v @<d_dou1_2a>→M ^M→连|甚至 @<d_dou1_2b>→A~A(不|没|没有|未|<df>) ^A→v @<d_dou1_2b>→A~(不|没|没有|未|<df>)*A ^A→v @<d_dou1_2c>→MN ^M→一q ^N→不|没|没有|未|<df> @<d_dou1_2d>→N ^N→[,]*(不|没|<df>) @<d_dou1_3>→E ^E→了, 郑州大学自然语言处理实验室

因为规则用法自动识别过程中,系统按照给出的规则逐条进行匹配,所以需对规则的顺序进行调整 2.1 基于规则的副词“都”用法自动识别 因为规则用法自动识别过程中,系统按照给出的规则逐条进行匹配,所以需对规则的顺序进行调整 语料来源:2000年4~6月的《人民日报》语料 –北京大学 郑州大学自然语言处理实验室

表2 副词“都”的用法分布 ID 分布率(%) 词频 d_dou1_1 83.9 5699 d_dou1_1a 2.7 180 d_dou1_1b 9.00 611 d_dou1_1c 0.13 9 d_dou1_1d 0.12 8 d_dou1_2 0.60 43 d_dou1_2a 2.40 160 d_dou1_2b 0.06 4 d_dou1_2c 0.21 14 d_dou1_2d 0.18 12 d_dou1_3 0.75 51 合计 100.00 6791 郑州大学自然语言处理实验室

表3基于规则的副词“都”的用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 99.61 80.19 88.85 d_dou1_1a 74.46 76.11 75.27 d_dou1_1b 89.40 99.35 94.11 d_dou1_1c 100.00 77.77 87.50 d_dou1_1d 3.64 7.02 d_dou1_2 d_dou1_2a 85.25 97.50 90.96 d_dou1_2b 50.00 66.67 d_dou1_2c 61.11 78.57 68.75 d_dou1_2d 1.09 75.00 2.15 d_dou1_3 68.57 94.12 79.34 合计 82.00 81.80 81.90 郑州大学自然语言处理实验室

2.2 基于统计的副词“都”用法自动识别 统计模型:条件随机场(CRF) 窗口:[7,3] 特征模版: 上下文窗口的词语信息+词性信息+词语和词性的复合信息 郑州大学自然语言处理实验室

表4 基于统计的副词“都”的用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 89.84 99.28 94.32 d_dou1_1a 78.81 51.67 62.42 d_dou1_1b 86.92 36.99 51.90 d_dou1_1c d_dou1_1d d_dou1_2 50.00 2.33 4.45 d_dou1_2a 100.00 65.63 79.25 d_dou1_2b d_dou1_2c d_dou1_2d d_dou1_3 42.86 5.88 10.34 合计 89.62 郑州大学自然语言处理实验室

2.3 规则与统计相结合的副词“都”用法自动识别 思想:对包含副词“都”的句子分别进行基于规则和基于统计的方法自动识别,结果分以下三种情况: 两者都没有识别结果,识别失败 两者只识别出一个结果,即两者之一没有识别结果或者两者识别结果相同,则标注该用法 两者识别结果不同,对比两者各自在原模型中识别准确率的大小,标注准确率较高的用法 郑州大学自然语言处理实验室

表5 规则与统计相结合的副词“都”用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 99.58 99.65 99.62 d_dou1_1a 97.77 97.22 97.49 d_dou1_1b 96.45 97.87 97.15 d_dou1_1c 77.78 d_dou1_1d 87.50 d_dou1_2 7.41 4.65 5.71 d_dou1_2a 99.38 d_dou1_2b 100.00 50.00 66.67 d_dou1_2c 73.33 78.57 75.86 d_dou1_2d 44.44 53.33 d_dou1_3 88.00 86.27 87.13 合计 98.54 郑州大学自然语言处理实验室

3 结语 对“都”的用法分别进行了基于规则、基于统计以及规则和统计相结合的自动识别研究 考虑提出其他的规则和统计相结合方法进一步提高用法的自动识别的准确率 考虑在用法自动识别的前提下,将用法识别应用到句法分析等其他自然语言处理领域 郑州大学自然语言处理实验室

谢谢! 郑州大学自然语言处理实验室