Presentation is loading. Please wait.

Presentation is loading. Please wait.

《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com.

Similar presentations


Presentation on theme: "《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com."— Presentation transcript:

1 《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com
董振东 董强 北京

2 提纲 1.引言 语义角色 2. 意义论 知网的知识库 3. 知网综述 7.关系的揭示与计算 4. 论义原 应用研讨

3 1.引言 需求牵引,还是技术牵引 知识资源是根本
我们的专著 -- “HowNet and the Computation of Meaning”

4 知网概貌 – 统计 (1) NO.=180888 W_C=汶川 G_C=noun [wen4 chuan1] S_C= E_C=
W_E=Wenchuan G_E=noun [3 Wenchuannoun,-0,static ] S_E= E_E= DEF={place|地方:PlaceSect={county|县},belong=“China|中国”, modifier={ProperName|专}} RMK=2008年5月12日14时28分,四川汶川发生7.8级地震。On May 12, 2008, the area was the epicentre of a major earthquake.

5 知网概貌 – 统计 (2) Chinese Character 7178 Chinese Word & Expression 95718
English Word & Expression Chinese Meaning English Meaning Definition Record [参考附录]

6 2. 意义论 意义的本质 – 关系 概念间的关系 概念的属性间的关系

7 多层语义关系网络(MLRN)

8 3. 知网综述 历史的回顾 知网的性质 知网的架构

9 《知网》的性质 的属性与属性之间的关系的知识库 描述概念与概念之间的关系,以及概念
-- Dong Zhendong, "Knowledge Description: What, How and who?", Proceedings of International Symposium on Electronic Dictionary, Tokyo, 1988, p.18

10 《知网》的哲学 知识是关系的系统,是概念与概念之间的 关系,概念的属性与属性之间的关系的系统 万物都在特定的时空中变化,从一种状态
转变为另一种状态,这样的转变体现于它的 属性的变化 本质属性或非本质属性的差别决定概念之间 的差别

11 4. 论义原 义原是否存在 义原在哪里 义原的提取 汉字的启示和利用 义原的表达

12 《知网》的知识获取与表达 义原 义原的认定 义原的提取 中文字义为基础 4,000汉字  2,200义原 英文词义为对照 义原的范畴

13 义原的范畴 义原 2088 实体 152 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置)
义原 实体 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置) 事件 (关系/状态、动作) 属性(外观、量度、特性、关系、状况、数量) 属性值 (外观、量度、特性、关系、状况、数量)886

14 次要特征 ├ {domain|领域} │ ├ {economy|经济} │ ├ {sport|体育}
Secondary Feature ├ {domain|领域} │ ├ {economy|经济} │ ├ {sport|体育} │ │ ├ {TableTennis|乒乓球} │ └ {physics|物理} ├ {PartPosition|部件位置} │ ├ {head|头} │ ├ {body|身} ├ {TimeSect|时间段} │ └ {year|年} │ └ {month|月} ├ {TimeFeature|时间特性} ├ {PlaceSect|地域} │ ├ {country|国家} ├ {PersonPro|人称} ├ {adjunct|修饰语}

15 5. 论分类 分类仅是组织知识的一种手段 分类仅提供知识的一个有限的侧面 分类的主观性和目的性

16 6. 语义角色 什么是语义角色 汉语的词语构成 -- 语义角色的手册 多少语义角色为合适 语义角色细一些好还是粗一些好 货运、客运;
海运、空运; 船运、车运; 多少语义角色为合适 语义角色细一些好还是粗一些好

17 角色的应用 原词 原形 父 子 角色 06The the 08 demo 07Yellow yellow
原词 原形 父 子 角色 06The the 08 demo 07Yellow yellow 08river river relevant 09Is be quantity 11kilometers kilometer 12 thanquantity 12longer long descriptive 13than than contrast 14this this 15 quantity 15river river

18 概念描述的举例 睡: DEF={sleep|睡} 床: DEF={furniture|家具:{sleep|睡:location={~}}}
棉被:DEF={tool|用具:{cover|遮盖:instrument={~}, time={sleep|睡}}} 安眠药: DEF={medicine|药物:modifier={able|能: scope={urge|促使:ResultEvent={sleep|睡}}}} 香: DEF={BehaviorValue|举止值: CoEvent={joyful|喜悦:scope={sleep|睡}}}

19 《知网》的灵魂 – 关系 1. 上下位 7. 整体-部件 2. 事件必要角色框架 8. 宿主-属性
1. 上下位 整体-部件 2. 事件必要角色框架 8. 宿主-属性 3. 事件关系与角色转换 9. 属性-属性值 4. 同类 实体-相应事件 5. 同义 制成品-材料 6. 反义 事件-动态角色 相关性 相似性

20 知网的获取与表达的特点 关系基于概念 关系主要是计算取得 处理单元的不同 激活机制的不同 – 语义互感 关系形式的不同 词/概念 vs 义原
语言层次连续性的不同 词-短语-句-篇章分离 vs 统一 激活机制的不同 – 语义互感 动态地激活静态孤立的人工描述 – (相关性实例: “香”)

21 语言各层次描述体系一致性(1) W_C=劫 W_C=飞机 G_C=V G_C=N E_C= E_C= W_E=rob W_E=plane
G_E=V G_E=N E_E= E_E= DEF={rob|抢} DEF={aircraft|飞行器}

22 语言各层次描述体系一致性(2) W_C=劫机 G_C=V E_C= W_E=hijack a plane G_E=V E_E=
DEF={rob|抢:possession={aircraft|飞行器}}

23 语言各层次描述体系一致性(3) W_C=劫机犯 G_C=N E_C= W_E=hijacker G_E=N E_E=
DEF={human|人:{rob|抢:agent={~}, possession={aircraft|飞行器}}}

24 语言各层次描述体系一致性 (4) W_C=抓获劫机犯 G_C=V E_C= W_E=catch a hijacker G_E=V E_E=
DEF={catch|捉住:patient={human|人: {rob|抢:agent={~}, possession={wealth|钱财}}}}

25 语言各层次描述体系一致性(5) W_C=机敏地抓获女劫机犯 G_C=V E_C=
W_E=catch a woman hijacker cleverly G_E=V E_E= DEF={catch|捉住:manner={clever|灵}, patient={human|人:{rob|抢:agent={~}, possession={wealth|钱财}}, modifier={female|女}}}

26 知网的应用 1. 语料库语义标注:香港科技大、清华 2. WSD,Sense Pruning:山大、台湾中研院、
厦大、香港科技大 3. 敏感信息发现:解放军某部 4. 信息过滤:厦大 5. Personalized IR:计算所 6. Semantic Web:台湾工研院 7. 与WordNet比较研究:马里兰大学、霍普金斯大学、香港科技大

27 知网的未来 资源建设 拓宽应用 以下列为试验场 增加数据量 – 建设 English HowNet 中文信息结构库建设 增加基于语料的实例
增加语言种类(Big5、法、韩、俄) 拓宽应用 以下列为试验场 中文歧义判别系统 英中机译系统

28 欢迎提问和批评


Download ppt "《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com."

Similar presentations


Ads by Google