地理试题名词动词初步统计 施林锋 王远
目的 句子理解 利用现有资源 点线面 点 线 面 WordNet等语言知识库,构建了对大量基本词汇的语 义描述,以及词汇间的关系 句子的基本元素: 词语,名词、动词、形容词、副词……, 理解词语的基本含义 线 词语之间的关系: 属性-宿主、事件-角色、…… 面 句子整体的含义 利用现有资源 WordNet等语言知识库,构建了对大量基本词汇的语 义描述,以及词汇间的关系
HowNet简介 常识知识库 概念与概念,概念与属性之间的关系 概念:对词汇语义的描述,有一套专门的表示方法 义原:描述概念的最小意义单位 1500个,10大类 一些符号:对概念进行语义描述 ? - 布匹: ?衣服 布匹可以是衣服的材料 概念之间的关系 通过关系义原盒符号表示 义原之间的关系:上下位、同义、反义、…… 复杂的网状结构 Ex. 北京 DEF={place|地方:Placesect={capital|国 都},belong=“China|中国”,modifier={ProperName|专}} 《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 “概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。
动词统计 HowNet词典大小(中文) 地理句子总数 动词概况 91015 16904 不同动词数量 2185 命中率 69.61% 未命中 东邻、西临、变深、猎狼、多雾少雨、升温……
名词统计 名词概况 不同名词数量 8596 命中率 47.56% 未命中 GeoNet? 名词模式统计 地理专有名词:山地垂直带谱、正午太阳高度角 特殊名词:①、甲处、Ⅰ区 地点 GeoNet? 名词模式统计 NP = ? + ? + … 共得到752个不同模式
CCKS竞赛近况 100份病例,10折CV CRF Tag Precision Recall F1 Mean-l Var-l 检查和检验 91.87% 95.76% 93.78% 2.12 0.041 症状和体征 84.58% 85.43% 85.00% 2.22 0.016 身体部位 81.55% 72.89% 76.98% 2.94 0.025 治疗 73.08% 6.35 0.236 疾病和诊断 81.25% 50.00% 61.90% 5.38 0.148
CCKS竞赛近况 BiLSTM-CRF Tag Precision Recall F1 Mean-l Var-l 检查和检验 93.33% 97.03% 95.15% 2.12 0.041 症状和体征 78.70% 88.67% 83.39% 2.22 0.016 身体部位 66.20% 66.38% 66.29% 2.94 0.025 治疗 55.56% 47.62% 51.28% 6.35 0.236 疾病和诊断 91.67% 30.56% 45.83% 5.38 0.148