副词“都”用法自动识别研究 张静杰 昝红英 郑州大学自然语言处理实验室
目录 引言 副词“都”的用法描述 副词“都”的用法自动识别研究 结语 基于规则的副词“都”用法自动识别 基于统计的副词“都”用法自动识别 规则与统计相结合的副词“都”用法自动识别 结语 郑州大学自然语言处理实验室
引言 在现代汉语中,副词的句法功能相对比较简单,然而,一些常用副词不仅使用频率很高,而且用法丰富多样 对于副词研究,尤其是一些义项纷繁、用法灵活的常用副词,需要针对个例,作仔细的考察和对比 郑州大学自然语言处理实验室
引言 “都”主要有三个义项: 范围的总括 无论工作大小,我们都要把它做好。 表达语气 真抱歉,我都忘了你的名字了。 表时间 饭都凉了,快吃吧! 郑州大学自然语言处理实验室
1 副词“都”的用法描述 根据俞士汶等提出的“三位一体”构建现代汉语广义虚词知识库的思路,昝红英等初步构建了虚词用法词典、用法规则库以及用法标注语料库“三位一体”的现代汉语虚词知识库 副词“都”共有3个义项11个用法 郑州大学自然语言处理实验室
表1副词“都”的用法描述 d_dou_2d 用于表示让步的小句,引出表示主要意思的小句。<b> d_dou_3 ID 释义 用法 d_dou_1 表示总括全部。<b> 除问话以外,所总括的对象必须放在“都”前。也可以说“全都”,总括的意思更明显。<b> d_dou_1a 所总括的对象可以用表示任指的疑问指代词。<b> d_dou_1b 所总括的对象前可以用连词“不论、不管、无论、凡是、只要”。 <b><z> d_dou_1c 问话时总括的对象(疑问代词)放在“都”后。<b> d_dou_1d 表示总括全部。与“是”搭配。说明原因,有责备的意思。<b> 与“是”搭配。<b> d_dou_2 甚至。“都”轻读。<b> 修饰动词或动词短语。<z> d_dou_2a 甚至。“都”轻读。与“连”字同用,有强调语气的作用。<b> 与“连”字同用。<b> d_dou_2b “都”前后用同一个动词(前肯定,后否定)。<b>A~(不|没|没有|未|df)A 或 A~A(不|没|没有|未|df)。<z> d_dou_2c 一+量词+...~+动词(否定式)。<b> d_dou_2d 用于表示让步的小句,引出表示主要意思的小句。<b> d_dou_3 已经。<b> 句末常用“了”。 <b> 郑州大学自然语言处理实验室
1 副词“都”的用法描述 与表1相对应的副词“都”的用法规则描述: $都 @<d_dou1_1>→N ^N→v|a @<d_dou1_1a>→M ^M→谁|哪里|什么|怎么|哪儿|哪|<ry>|<ryw> @<d_dou1_1b>→M ^M→(不论|不管|无论|虽然|尽管|凡是|只要)*{,} @<d_dou1_1c>→NE ^N→谁|哪里|什么|怎么|哪儿|哪|<ry>|<ryw> ^E→? @<d_dou1_1d>→FR ^F→~ ^R→是 @<d_dou1_2>→N ^N→v @<d_dou1_2a>→M ^M→连|甚至 @<d_dou1_2b>→A~A(不|没|没有|未|<df>) ^A→v @<d_dou1_2b>→A~(不|没|没有|未|<df>)*A ^A→v @<d_dou1_2c>→MN ^M→一q ^N→不|没|没有|未|<df> @<d_dou1_2d>→N ^N→[,]*(不|没|<df>) @<d_dou1_3>→E ^E→了, 郑州大学自然语言处理实验室
因为规则用法自动识别过程中,系统按照给出的规则逐条进行匹配,所以需对规则的顺序进行调整 2.1 基于规则的副词“都”用法自动识别 因为规则用法自动识别过程中,系统按照给出的规则逐条进行匹配,所以需对规则的顺序进行调整 语料来源:2000年4~6月的《人民日报》语料 –北京大学 郑州大学自然语言处理实验室
表2 副词“都”的用法分布 ID 分布率(%) 词频 d_dou1_1 83.9 5699 d_dou1_1a 2.7 180 d_dou1_1b 9.00 611 d_dou1_1c 0.13 9 d_dou1_1d 0.12 8 d_dou1_2 0.60 43 d_dou1_2a 2.40 160 d_dou1_2b 0.06 4 d_dou1_2c 0.21 14 d_dou1_2d 0.18 12 d_dou1_3 0.75 51 合计 100.00 6791 郑州大学自然语言处理实验室
表3基于规则的副词“都”的用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 99.61 80.19 88.85 d_dou1_1a 74.46 76.11 75.27 d_dou1_1b 89.40 99.35 94.11 d_dou1_1c 100.00 77.77 87.50 d_dou1_1d 3.64 7.02 d_dou1_2 d_dou1_2a 85.25 97.50 90.96 d_dou1_2b 50.00 66.67 d_dou1_2c 61.11 78.57 68.75 d_dou1_2d 1.09 75.00 2.15 d_dou1_3 68.57 94.12 79.34 合计 82.00 81.80 81.90 郑州大学自然语言处理实验室
2.2 基于统计的副词“都”用法自动识别 统计模型:条件随机场(CRF) 窗口:[7,3] 特征模版: 上下文窗口的词语信息+词性信息+词语和词性的复合信息 郑州大学自然语言处理实验室
表4 基于统计的副词“都”的用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 89.84 99.28 94.32 d_dou1_1a 78.81 51.67 62.42 d_dou1_1b 86.92 36.99 51.90 d_dou1_1c d_dou1_1d d_dou1_2 50.00 2.33 4.45 d_dou1_2a 100.00 65.63 79.25 d_dou1_2b d_dou1_2c d_dou1_2d d_dou1_3 42.86 5.88 10.34 合计 89.62 郑州大学自然语言处理实验室
2.3 规则与统计相结合的副词“都”用法自动识别 思想:对包含副词“都”的句子分别进行基于规则和基于统计的方法自动识别,结果分以下三种情况: 两者都没有识别结果,识别失败 两者只识别出一个结果,即两者之一没有识别结果或者两者识别结果相同,则标注该用法 两者识别结果不同,对比两者各自在原模型中识别准确率的大小,标注准确率较高的用法 郑州大学自然语言处理实验室
表5 规则与统计相结合的副词“都”用法自动识别 ID 准确率(%) 召回率(%) F值(%) d_dou1_1 99.58 99.65 99.62 d_dou1_1a 97.77 97.22 97.49 d_dou1_1b 96.45 97.87 97.15 d_dou1_1c 77.78 d_dou1_1d 87.50 d_dou1_2 7.41 4.65 5.71 d_dou1_2a 99.38 d_dou1_2b 100.00 50.00 66.67 d_dou1_2c 73.33 78.57 75.86 d_dou1_2d 44.44 53.33 d_dou1_3 88.00 86.27 87.13 合计 98.54 郑州大学自然语言处理实验室
3 结语 对“都”的用法分别进行了基于规则、基于统计以及规则和统计相结合的自动识别研究 考虑提出其他的规则和统计相结合方法进一步提高用法的自动识别的准确率 考虑在用法自动识别的前提下,将用法识别应用到句法分析等其他自然语言处理领域 郑州大学自然语言处理实验室
谢谢! 郑州大学自然语言处理实验室