基于规则抽取的 时间表达式识别
数据集、分词系统 2006年微软亚洲研究院《人民日报》语料 训练语料包含46364个句子和17924个时间表达式 测试语料包含4365个句子和1127个时间表达式。 中科院汉语词法分析系统ICTCLAS
时间识别1 使用CRF方法 实验结果 用RL打pretag标签也作为特征 1词形词性 3词形词性 5词形词性 P 0.8569 0.9211 0.9205 R 0.9139 0.9219 0.9148 F 0.8845 0.9215 0.9176 1词形词性 RL 3词形词性 5词形词性 RL- P 0.9075 0.9319 0.9340 0.9092 0.9396 0.9364 R 0.9406 0.9343 0.9290 0.9423 0.9379 0.9272 F 0.9237 0.9331 0.9315 0.9255 0.9387 0.9318
时间识别2 规则抽取方法 实验结果 抽取了493条规则 P = 1110 / 3585 = 0.30962343096234307 R = 1110 / 1127 = 0.9849157054125999 F = 0.47113752122241087 RL RL&NB RL&LR RL&RF RL&DT RL&SVMCV P 0.3096 0.9036 0.9328 0.9220 0.9428 0.9451 R 0.9849 0.9228 0.9361 0.9015 0.9352 0.9468 F 0.4711 0.9131 0.9345 0.9116 0.9390 0.9459 NB: 1040,1151 LR: 1055,1131 RF: 983,1054 DT: 1050,1117 SVMCV: 1067,1129
时间识别3 规则抽取方法 实验结果 抽取了493条规则,删去纯数字的规则,剩492条规则 P = 1098 / 1829 = 0.6003280481137233 R = 1098 / 1127 = 0.974267968056788 F = 0.7428958051420839 RL- RL-&NB RL-&LR RL-&RF RL-&DT RL-&SVMCV P 0.6003 0.9227 0.9346 0.9212 0.9376 0.9420 R 0.9743 0.9113 0.9379 0.9228 0.9335 0.9361 F 0.7429 0.9170 0.9362 0.9220 0.9355 0.9390 NB: 1027,1113 LR: 1057,1131 RF: 1040,1129 DT: 1052,1122 SVMCV: 1055,1120
1词形词性 RL 3词形词性 5词形词性 RL- P 0.9075 0.9319 0.9340 0.9092 0.9396 0.9364 R 0.9406 0.9343 0.9290 0.9423 0.9379 0.9272 F 0.9237 0.9331 0.9315 0.9255 0.9387 0.9318 RL RL&NB RL&LR RL&RF RL&DT RL&SVMCV P 0.3096 0.9036 0.9328 0.9220 0.9428 0.9451 R 0.9849 0.9228 0.9361 0.9015 0.9352 0.9468 F 0.4711 0.9131 0.9345 0.9116 0.9390 0.9459 RL- RL-&NB RL-&LR RL-&RF RL-&DT RL-&SVMCV P 0.6003 0.9227 0.9346 0.9261 0.9376 0.9420 R 0.9743 0.9113 0.9379 0.9122 0.9335 0.9361 F 0.7429 0.9170 0.9362 0.9191 0.9355 0.9390 1 2 3
时间识别3 规则抽取方法 实验结果 抽取了493条规则,删去纯数字的规则,通过训练集过滤模糊的时间表 达式 P = 0.8414539829853055 R = 0.9653948535936113 F = 0.8991735537190081
规则抽取结合机器学习 训练集 抽取 测试集 规则集 识别 识别 特征选取 时间表达式 时间表达式 训练 分类器 分类 识别结果