《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com.

Slides:



Advertisements
Similar presentations
讀經教育  第一組:吳碧霞、陳鍾仁  第二組:吳雪華、謝濰萁  第三組:邱國峰、林佳玫. 不論上智下愚 成功的教育 讓每個孩子 都能成為最優秀的人才.
Advertisements

第一章. 壹、運動與健康的意義 運動的目的,是為了維 持身體的健康。 要擁有健康的身體,就 必須要有適時、適度的 運動。 「健康活力 運動臺北」路跑.
护理部教学管理 南医大二附院 张淑芬. 护理部主要工作:  培训  质量  教学科研 临床教学的秘诀 What – 需要的、喜欢的 Who – 教师的角色 – 学生的程度、学习方式 How – 教学方法.
1 南郭國小 翁正雄 95/06/09 教育部健康醫學學習網傳統醫 學學習館交流研習 資料來源:教育部六大學習網及簡介 健康醫學學習網及簡介.
新闻写作基础知识 一. 新闻导语 二.新闻主体 三.新闻结构 四.角度选择.
對於學習不力學生的學習輔導經驗分享 張其清 新北市立新北高工 主任輔導教師.
使用說明 高年級 破解賽恩思 (Science)密碼 編輯群 明湖國小 吳立明 老師 李惠雯 老師 林宜璇 老師.
国家自然科学基金项目申请 经验交流与心得体会
市直单位财务明细信息表 填报说明 珠海市财政局 2013年12月 1.
高考主题讲座 高考语文 董 腾.
第六章 顾客购买行为分析 学习目标 了解顾客购买行为分析的模式 理解消费者购买行为的特征和类型 掌握影响消费者购买行为的因素
如何幫助兒童情緒管理- 一般兒童及情緒障礙兒童
推論與自我提問 閱讀教學師資培訓研習營.
劳动关系法务-实操篇 规章制度修审与员工手册撰写.
第四章 心理健康.
歷史建築清水國小宿舍群修復工程 施工說明會
第5章 排版的高级应用.
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
大家好!.
性理釋疑(1—30題) 後學 阮章輝 學講.
十二年國民基本教育 高雄區入學方式說明 報告人:中山工商 楊薇主任.
屏東區 十二年國民基本教育 「入學方式」宣導講綱
屏東區 十二年國民基本教育宣導 「入學方式」 屏東縣十二年國教宣導種子講師 飛夢林學園 黃豊欽.
數學解題王 ~從閱讀策略談起 分享者:吳祥銘老師.
思维,决定一切 -公司战略、企业文化与人力资源的思辨
案例研究报告撰写.
通用技术教学与实践 常德市鼎城区第八中学 刘启红.
生命關懷與服務學習 指導老師:胡翰平教授 指導助教: 鍾雅婷助教 組長:物二甲 姚烜鈞 組員:物一乙 何乃翔 物一乙 李昭蓉 物一乙 劉晏君
创业计划书的编写 白城师范学院创业教育 与文化研究中心 陆东辉.
個人投資理財分析 財務狀況匯總表 銀行存款 共同基金 外幣基金 股票投資 保險價值 黃金投資 支出預算 房貸計算 不動產價值 資源變化資料庫
生物学 新课标.
第二章 自然资源与人文资源.
讀 報 活 動 報紙版面知多少.
Web of Distributed Ontologies
班級:商四甲 姓名:林妤芝 12號 詹芳祺 15號 蘇曉珊 39號 李育嘉 43號
經濟部文書作業實務 報告人:何國金.
出隊服務經驗分享 分享人:大丁.
義工訓練 程序設計須知.
从2008年度时尚先生看我们的时代精神方向.
心靈補給站 你可以「活」的「更好」 輔導主任 陳正馨老師.
2010年高考语文《考试大纲》对本考点的要求是:“正确使用标点符号。”能力层级为D(表达应用)。
學習行為觀察與評估 講 師:陳怡華.
運動休閒管理 期末報告 Major Sport Events and Long-Term Tourism Impacts 大型運動賽會對觀光的長期衝擊 學生:嚴偉誠 M99B0102 指導教授:柯伶玫 教授.
罗湖区第二届智慧杯中学政治学科小课题研究
授課教師: 李麗華 資訊管理系一年級B班 資料來源:資管系
崇右技術學院 電子公文線上簽核系統教育訓練
Yellow River Engineering Consulting Co., Ltd.
离职流程精细化标准推进材料 人事行政处.
國語科補救教學 龍華國小 許如菁.
注重物理基本思想和方法教学 讲究实效 ——2012年高考物理复习备考建议
經國管理學院 電子公文線上簽核系統教育訓練
4-1 電話禮儀的基本觀念 4-2 接聽電話的禮儀 4-3 打電話的禮儀 4-4 打國際電話的禮儀
新聞報導 一、什麼是新聞? 1、狗咬人不是新聞,人咬狗才是新聞 2、大眾關切的事 3、讀者有興趣知道的事 4、接近性.
日本.
教案名稱: 「KANO行銷;引領國片風潮」 本教案製作者:毛俞婷
資10-5 能統整與評估資訊 教育部增置國小圖書教師輔導與教育訓練計畫 圖書資訊利用教育教學綱要及教學設計小組
國有公用財產管理簡介 總 務 處 保管組 104年04月07日.
第一章 打开物理世界的大门.
107學年度高雄區國中技藝技能 優良學生甄審入學說明會
107學年度高雄區 實用技能學程輔導分發 五福國中說明會
102-2金融法規(2~4) ~03..
資10-4 能使用資訊並遵守資訊倫理 教育部增置國小圖書教師輔導與教育訓練計畫 圖書資訊利用教育教學綱要及教學設計小組
南投縣106年度 結合家長會防制學生藥物濫用宣導
108學年度高雄區國中技藝技能 優良學生甄審入學說明會
大学计算机基础——周口师范学院 第3章 Word字处理软件 3.8页眉与页脚.
備審資料準備要領 許書銘 東海大學 企管系主任.
看圆如何七十二变 微建筑早课.
第一节 计划的概念及其性质 第二节 计划的类型 第三节 计划编制过程
園區多元智能教育中心 一年級課表 科園、龍山、實小
Presentation transcript:

《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com 北京 2008-05

提纲 1.引言 5. 语义角色 2. 意义论 6. 知网的知识库 3. 知网综述 7.关系的揭示与计算 4. 论义原 8. 应用研讨

1.引言 需求牵引,还是技术牵引 知识资源是根本 我们的专著 -- “HowNet and the Computation of Meaning”

知网概貌 – 统计 (1) NO.=180888 W_C=汶川 G_C=noun [wen4 chuan1] S_C= E_C= W_E=Wenchuan G_E=noun [3 Wenchuannoun,-0,static ] S_E= E_E= DEF={place|地方:PlaceSect={county|县},belong=“China|中国”, modifier={ProperName|专}} RMK=2008年5月12日14时28分,四川汶川发生7.8级地震。On May 12, 2008, the area was the epicentre of a major earthquake.

知网概貌 – 统计 (2) Chinese Character 7178 Chinese Word & Expression 95718 English Word & Expression 92791 Chinese Meaning 110331 English Meaning 117309 Definition 28667 Record 186944 [参考附录]

2. 意义论 意义的本质 – 关系 概念间的关系 概念的属性间的关系

多层语义关系网络(MLRN)

3. 知网综述 历史的回顾 知网的性质 知网的架构

《知网》的性质 的属性与属性之间的关系的知识库 描述概念与概念之间的关系,以及概念 -- Dong Zhendong, "Knowledge Description: What, How and who?", Proceedings of International Symposium on Electronic Dictionary, Tokyo, 1988, p.18

《知网》的哲学 知识是关系的系统,是概念与概念之间的 关系,概念的属性与属性之间的关系的系统 万物都在特定的时空中变化,从一种状态 转变为另一种状态,这样的转变体现于它的 属性的变化 本质属性或非本质属性的差别决定概念之间 的差别

4. 论义原 义原是否存在 义原在哪里 义原的提取 汉字的启示和利用 义原的表达

《知网》的知识获取与表达 -- 义原 义原的认定 义原的提取 中文字义为基础 4,000汉字  2,200义原 英文词义为对照 义原的范畴

义原的范畴 义原 2088 实体 152 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置) 义原 2088 实体 152 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置) 事件 (关系/状态、动作) 805 属性(外观、量度、特性、关系、状况、数量) 245 属性值 (外观、量度、特性、关系、状况、数量)886

次要特征 ├ {domain|领域} │ ├ {economy|经济} │ ├ {sport|体育} Secondary Feature 126 ├ {domain|领域} │ ├ {economy|经济} │ ├ {sport|体育} │ │ ├ {TableTennis|乒乓球} │ └ {physics|物理} ├ {PartPosition|部件位置} │ ├ {head|头} │ ├ {body|身} ├ {TimeSect|时间段} │ └ {year|年} │ └ {month|月} ├ {TimeFeature|时间特性} ├ {PlaceSect|地域} │ ├ {country|国家} ├ {PersonPro|人称} ├ {adjunct|修饰语}

5. 论分类 分类仅是组织知识的一种手段 分类仅提供知识的一个有限的侧面 分类的主观性和目的性

6. 语义角色 什么是语义角色 汉语的词语构成 -- 语义角色的手册 多少语义角色为合适 语义角色细一些好还是粗一些好 货运、客运; 海运、空运; 船运、车运; 多少语义角色为合适 语义角色细一些好还是粗一些好

角色的应用 原词 原形 父 子 角色 06The the 08 demo 07Yellow yellow 原词 原形 父 子 角色 06The the 08 demo 07Yellow yellow 08river river 09 06 relevant 09Is be 00 12 08 1020 20 quantity 11kilometers kilometer 12 thanquantity 12longer long 09 11 13 descriptive 13than than 12 15 contrast 14this this 15 quantity 15river river 13 14 16. .

概念描述的举例 睡: DEF={sleep|睡} 床: DEF={furniture|家具:{sleep|睡:location={~}}} 棉被:DEF={tool|用具:{cover|遮盖:instrument={~}, time={sleep|睡}}} 安眠药: DEF={medicine|药物:modifier={able|能: scope={urge|促使:ResultEvent={sleep|睡}}}} 香: DEF={BehaviorValue|举止值: CoEvent={joyful|喜悦:scope={sleep|睡}}}

《知网》的灵魂 – 关系 1. 上下位 7. 整体-部件 2. 事件必要角色框架 8. 宿主-属性 1. 上下位 7. 整体-部件 2. 事件必要角色框架 8. 宿主-属性 3. 事件关系与角色转换 9. 属性-属性值 4. 同类 10. 实体-相应事件 5. 同义 11. 制成品-材料 6. 反义 12. 事件-动态角色 --------- 相关性 相似性

知网的获取与表达的特点 关系基于概念 关系主要是计算取得 处理单元的不同 激活机制的不同 – 语义互感 关系形式的不同 词/概念 vs 义原 语言层次连续性的不同 词-短语-句-篇章分离 vs 统一 激活机制的不同 – 语义互感 动态地激活静态孤立的人工描述 – (相关性实例: “香”)

语言各层次描述体系一致性(1) W_C=劫 W_C=飞机 G_C=V G_C=N E_C= E_C= W_E=rob W_E=plane G_E=V G_E=N E_E= E_E= DEF={rob|抢} DEF={aircraft|飞行器}

语言各层次描述体系一致性(2) W_C=劫机 G_C=V E_C= W_E=hijack a plane G_E=V E_E= DEF={rob|抢:possession={aircraft|飞行器}}

语言各层次描述体系一致性(3) W_C=劫机犯 G_C=N E_C= W_E=hijacker G_E=N E_E= DEF={human|人:{rob|抢:agent={~}, possession={aircraft|飞行器}}}

语言各层次描述体系一致性 (4) W_C=抓获劫机犯 G_C=V E_C= W_E=catch a hijacker G_E=V E_E= DEF={catch|捉住:patient={human|人: {rob|抢:agent={~}, possession={wealth|钱财}}}}

语言各层次描述体系一致性(5) W_C=机敏地抓获女劫机犯 G_C=V E_C= W_E=catch a woman hijacker cleverly G_E=V E_E= DEF={catch|捉住:manner={clever|灵}, patient={human|人:{rob|抢:agent={~}, possession={wealth|钱财}}, modifier={female|女}}}

知网的应用 1. 语料库语义标注:香港科技大、清华 2. WSD,Sense Pruning:山大、台湾中研院、 厦大、香港科技大 3. 敏感信息发现:解放军某部 4. 信息过滤:厦大 5. Personalized IR:计算所 6. Semantic Web:台湾工研院 7. 与WordNet比较研究:马里兰大学、霍普金斯大学、香港科技大

知网的未来 资源建设 拓宽应用 以下列为试验场 增加数据量 – 建设 English HowNet 中文信息结构库建设 增加基于语料的实例 增加语言种类(Big5、法、韩、俄) 拓宽应用 以下列为试验场 中文歧义判别系统 英中机译系统

欢迎提问和批评