e-mail: dzd@keenage.com 意义的计算 -- 知网的进展与应用 董振东 董强 中科院计算机语言信息工程研究中心 语言知识研究室 e-mail: dzd@keenage.com http://www.keenage.com Tel: (8610) 6287-5641 Tel: (8610) 6676-8816
讨论题目 不变的是什么? 变了什么? 变成什么样了?
不变的是什么(1) 《知网》的性质 -- 描述概念与概念之间的关系,以及概念的属性与属性之间的关系的知识库 Dong Zhendong, "Knowledge Description: What, How and who?", Proceedings of International Symposium on Electronic Dictionary, Tokyo, 1988, p.18
不变的是什么(2) 《知网》的哲学 -- 本质属性或非本质属性的差别决定概念之间的差别 --知识是关系的系统,是概念与概念之间的关系,概念的属性与属性之间的关系的系统 -- 万物都在特定的时空中变化,从一种状态转变为另一种状态,这样的转变体现于它的属性的变化 -- 本质属性或非本质属性的差别决定概念之间的差别
不变的是什么(3) 《知网》的建构理念和设计 -- 关系是灵魂,揭示关系是《知网》的中心 -- 基于义原(sememe),特征的静态描述为主 -- 采用动态角色激活静态特征 -- 面向计算机
多层语义关系网络(MLRN)
《知网》的知识获取与表达 -- 义原(sememe) 义原的认定 义原的提取 中文字义为基础 4,000汉字 2,200义原 英文词义为对照 义原的范畴
义原的范畴 实体 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置) 事件 (关系/状态、动作) 属性 属性值 (外观、量度、特性、关系、状况) 数量 数量值
变了什么? 《知网》的知识词典描述语言(KDML),从原来的线性的描述方式改进为树型的、可嵌套的描述方式;原来的各种关系的表示从隐性、有的含混的变为显性的、无含混的。 对属性和属性值义原做了重大的调整和补充。同时对其他义元表也做了相应的调整。 增加了一些各种关系的检索模式。 增加了事件关系与动态角色转换模块。 将《中文信息结构库》进行了规则化处理,并针对这些规则编写了相应的解释器。
《知网》采用的义原 1503 => 2199 实体 141 => 153 《知网》采用的义原 1503 => 2199 实体 141 => 153 万物(物质、精神、事情、组织) 134 => 146 部分(部件、配件) 3 时间 1 空间(方向、位置) 3 事件(关系/状态、动作) 813 => 817 属性值(外观、量度、特性、关系、状况) 316 => 859 数量值 13 => 18 属性 117 => 236 数量 6 次要特征 99 => 110
HowNet 释义一例 W_C=店 G_C=N E_C=旅~,星级饭~,黑~,住~,~里没空房,住酒~,星级酒~ W_E=inn G_E=N E_E= DEF={InstitutePlace|场所:{eat|吃:location={~}},{reside|住下:location={~}},{recreation|娱乐:location={~}},RelateTo={tour|旅游},domain={economy|经济}} E_C=~铺,商~,夫妻~,夫妻老婆~,便民~,小卖~,专卖~,书~,布~,药~,花~,小吃~,精品~,礼品~,玩具~,服装~,烟纸~,南货~,食杂~,宠物~ W_E=shop DEF={InstitutePlace|场所:{sell|卖:agent={~}},{buy|买:location={~}},domain={economy|经济}}
KDML改进 W_C=北麓 G_C=N E_C= W_E=northern foot of a mountain G_E=N E_E= (原)DEF=part|部件,%land|陆地,base|根 (新)DEF={part|部件:whole={land|陆 地:PartPosition={base|根}},modifier={north|北}}
KDML改进 W_C=被告人 G_C=N W_E=accused G_E=N DEF=human|人,$accuse|控告,police|警 DEF={human|人:{accuse|控 告:patient={~}},domain={police|警}} W_C=被告席 W_E=dock DEF=location|位置,@sit|坐蹲,#accuse|控告,police|警 DEF={location|位置:{sit|坐蹲:location={~},agent={human|人:{accuse|控告:patient={~}},domain={police|警}}}}
WordNet 释义一例 The noun shop has 2 senses (first 2 from tagged texts) 1. shop, store -- (a mercantile establishment for the retail sale of goods or services; "he bought it at a shop on Cape Cod") 2. workshop, shop -- (small establishment where handcrafts or manufacturing are done)
概念描述的举例 (1) 医生:DEF={human|人:domain={medical|医}, HostOf={Occupation|职位},{doctor| 医治: agent={~}}} 患者:DEF={human|人:domain={medical|医}, {SufferFrom|罹患:experiencer={~}}, {doctor|医治:patient={~}}} 医院: DEF={InstitutePlace|场所:{doctor|医治: location={~},content={disease|疾病}}, domain={medical|医}}
概念描述的举例 (2) 病历:DEF={document|文书:{record|记录: content={disease|疾病},LocationFin={~}}, domain={medical|医}} 健康:DEF={Health|健康: host={AnimalHuman|动物}} 多病:DEF={unhealthy|不健} │ │ ├ {HealthValue|健康值} │ │ │ ├ {healthy|康健} │ │ │ └ {unhealthy|不健}
概念描述的举例 (3) 病:{disease|疾病} {phenomena|现象: {doctor|医治:content={~}},{SufferFrom|罹患 :content={~}},RelateTo={medicine|药物} {Health|健康}{HealthValue|健康值}, domain={medical|医}} 药: {medicine|药物} {artifact|人工物:{doctor|医治 :instrument={~}},RelateTo={disease|疾病}, domain={medical|医}{chemistry|化学}}
《知网》的灵魂 – 关系 1. 上下位 2. 事件必要角色框架 3. 事件关系与角色转换 4. 同义 5. 反义 6. 对义 7. 整体-部件 8. 宿主-属性 9. 属性-属性值 10. 实体-相应事件 11. 制成品-材料 12. 各种动态角色关系
上下位关系 (1) - {entity|实体} ├ {thing|万物} {entity|实体:{ExistAppear|存现:existent={~}}} │ ├ {physical|物质} {thing|万物:{HostOf={Appearance|外观}},{perception|感知:content={~}}} │ │ ├ {animate|生物} {physical|物质:{HostOf={Age|年龄}},{alive|活着:experiencer={~}},{die|死:experiencer={~}},{metabolize|代谢:experiencer={~}},{reproduce|生殖:agent={~}},{reproduce|生殖:PatientProduct={~}}} │ │ │ ├ {AnimalHuman|动物} {animate|生物:{HostOf={Sex|性别}},{AlterLocation|变空间位置:agent={~}},{StateMental|精神状态:experiencer={~}}} │ │ │ │ ├ {human|人} {AnimalHuman|动物:{HostOf={Name|姓名}{Wisdom|智慧}{Ability|能力}},{think|思考:agent={~}},{speak|说:agent={~}}}
上下位关系 (2) - {event|事件} ├ {static|静态} │ ├ {relation|关系} │ │ ├ {isa|是非关系} │ │ │ ├ {be|是} {relevant,isa}/{relevant,descriptive} │ │ │ │ ├ {become|成为} {relevant,isa}/{relevant,descriptive} │ │ │ │ └ {mean|指代} {relevant,isa}/{relevant,descriptive} │ │ │ └ {BeNot|非} {relevant,isa}/{relevant,descriptive} │ │ ├ {possession|领属关系} │ │ │ ├ {own|有} {possessor,possession} │ │ │ │ ├ {obtain|得到} {possessor,possession,source} │ │ │ │ └ {receive|收受} {possessor,possession,source} │ │ │ ├ {BelongTo|属于} {possessor,possession} │ │ │ ├ {OwnNot|无} {possessor,possession} │ │ │ │ └ {lose|失去} {possessor,possession} │ │ │ │ └ {InDebt|亏损} {possessor,possession} │ │ │ └ {owe|欠} {possessor,possession,target}
事件动态角色 (1) {Event Role and Features} ├ {EventRole} 动态角色 │ ├ {relevant} 关系主体 │ ├ {existent} 存现体 │ ├ {experiencer} 经验者 │ ├ {agent} 施事 │ ├ {coagent} 合作施事 │ ├ {possession} 占有物 │ ├ {patient} 受事 │ ├ {PatientPartPosition} 部件部位受事 │ ├ {PatientProduct} 成品受事 │ ├ {PatientAttribute} 受事属性 │ ├ {PatientaValue} 受事属性值
事件动态角色 (2) │ ├ {content} 内容 │ ├ {ContentProduct} 内容成品 │ ├ {PartOfTouch} 触及部件 │ ├ {content} 内容 │ ├ {ContentProduct} 内容成品 │ ├ {ResultContent} 结果内容 │ ├ {isa} 类指 │ ├ {PartOf} 部分 │ ├ {whole} 整体 │ ├ {host} 宿主 │ ├ {HostOf} 之宿主 │ ├ {descriptive} 描写体 │ ├ {result} 结果
事件关系和角色转换 sorrowful|悲哀 weep|哭泣 [consequence]; experiencer OF sorrowful|悲哀=agent OF weep|哭泣; cause OF sorrowful|悲哀= cause OF weep|哭泣; BeBad|衰变 [cause]sorrowful|悲哀; experiencer OF BeBad|衰变=experiencer OF sorrowful|悲哀; BeBad|衰变 ITSELF=cause OF sorrowful|悲哀. unfortunate|不幸BeBad|衰变 [hypernym]; experiencer OF unfortunate|不幸=experiencer OF BeBad|衰变. defeated|输掉BeBad|衰变 [hypernym]; experiencer OF defeated|输掉=experiencer OF BeBad|衰变.
实体-属性-属性值的关系 头/发型:{Pattern|样式:host={part|部件:whole={human|人},PartPosition={hair|毛}}} PatternValue|样式值 = Value of Pattern|样式 ├ {fashionable|时髦} └ {unfashionable|背令}
《知网》的应用 1. 语料库语义标注:香港科技大、清华 2. WSD,Sense Pruning:山大、台湾中研院、 厦大、香港科技大 3. 敏感信息发现:解放军某部 4. 信息过滤:厦大 5. Personalized IR:计算所 6. Semantic Web:台湾工研院 7. 与WordNet比较研究:马里兰大学、香港科技大
欢迎提问和批评