Intel China Research Forum


Presentation transcript:

e-mail: Intel China Research Forum * 07/16/96 自然语言处理的 新需求、新资源、新技术 董振东 董强 e-mail: Tel: (8610) 6287-5641 Tel: (8610) 6676-8816 Intel China Research Forum 北京 2000/10/11 *

提纲 差距与反思 -- 成就是过去时,不足是将来时 《知网》-- 一种新的资源 -- 新资源促进新技术 提纲 差距与反思 -- 成就是过去时,不足是将来时 《知网》-- 一种新的资源 -- 新资源促进新技术

差距与反思 层次浅 语境窄 知识颗粒度小 流行技术的极限 音字转换 信息过滤 文本分析 语音识别 文本分类 歧义排除 * 07/16/96 差距与反思 层次浅 语境窄 知识颗粒度小 流行技术的极限 音字转换 信息过滤 文本分析 语音识别 文本分类 歧义排除 OCR 信息检索 文本理解 语法检查 自动文摘 机器翻译 *

音字转换系统(输入法) 上这摊某被立即送往医院,但终因史学过多,不止身亡。 伤者谭某被立即送往医院,但终因失血过多,不治身亡。 上这里某被立即送往医院,但终因留学过多,不止身亡。 伤者李某被立即送往医院,但终因流血过多,不治身亡。 唐非情此获准。 唐飞请辞获准。

语法检查 In a few years' time, there will be no Internet companies -- there will just be companies -- and all companies that are going to operate in the economics of a few years, in the future, are going to be Internet companies. -- Andrew S. Grove (1) are The world will little note, nor long remember what we say here, but it can never forget what they did here. -- Abraham Lincon (1)world wills / worlds will (2)will little neither note, nor / will no little note, or It would be something that we actually will almost take for granted and wonder how business was done before we incorporated this in a very deep way -- Bill Gates (1) wonders

信息检索 华人  中华人民共和国,新华人寿保险 北大  北大西洋,北大荒,台北大学 葡萄  葡萄牙,葡萄糖 信息检索 华人  中华人民共和国,新华人寿保险 北大  北大西洋,北大荒,台北大学 葡萄  葡萄牙,葡萄糖

自动文摘 Advances in Automatic Text Summarization With the rapid growth of the World Wide Web and electronic information services, information is becoming available on-line at an incredible rate. One result is the oft-decried information overload. No one has time to read everything, yet we often have to make critical decisions based on what we are able to assimilate. The technology of automatic text summarization is becoming indispensable for dealing with this problem. Text summarization is the process of distilling the most important information from a source to produce an abridged version for a particular user or task. Until now there has been no state-of-the-art collection of the most important writings in automatic text summarization. This book presents the key developments in the field in an integrated framework and suggests future research areas. The book is organized into six sections: Classical Approaches, Corpus-Based Approaches, Exploiting Discourse Structure, Knowledge-Rich Approaches, Evaluation Methods, and New Summarization Problem Areas. (55%)

* 07/16/96 自动翻译 Do you think I could stay here and become nothing to you? Do you think, because I am poor, and obscure and plain, that I am soulless and heartless? I have as much soul as you and fully as much heart. And if God had gifted me with wealth and beauty I should have made it as hard for you to leave me as it is now for me to leave you. There I have spoken my heart and let me go. 你想我可以在这里停留并且适合没有任何东西成为你吗?你想,因为我贫穷,并且昏暗和简明,我是卑鄙和无情的吗?我有和灵魂AS多你和充分作为许多心脏。同时如果上帝有我天才财富以及美丽我作为应该使它努力为你因为它现在为我。我已在那里说我的心脏并且让我去。 (1988年推出的系统) 你认为我能这里留下和变成对你没有什么吗?你因为我是可怜和不引人注目和清楚,认为我是没有灵魂的和无情吗?我有同样多作为你精神和完全同样多心脏.和如果上帝有有天赋有财富的我和美,我应该已使它变得你同样地难以现在我留下你让我保持现在的样子.那里我说我的心脏已和让我去。 (1999年推出的系统) *

《知网》-- 一种新的资源 《知网》的近期发展与应用 《知网》的关键 HowNet 意味着什么? How knowledge is represented and acquired? How meaning can be formalized and calculated? How meaning is expressed and conveyed?

《知网》近期的发展 《知网》2000版与1999版的不同 2000版 1999版 语种 中(GB)-英双语 GB + Big5 2000版 1999版 语种 中(GB)-英双语 GB + Big5 功能 浏览器 + 数据维护 基本数据 知识词典 11万记录 6万记录 新增修订10,000余 增加中文多义义项例子 内容扩展 事件关系与角色转换库 知网-中文信息结构库

《知网》近期的应用 资源扩展 语义标注 建立关系网络 信息处理应用 语义分析 排除歧义 英中-中英双向机器翻译 信息过滤

《知网》的关键 《知网》的灵魂 《知网》应用的关键 -- 新技术的引入 关系 -- 关系的动态的、多层次的体现寓于静态的、 孤立的描述之中 * 07/16/96 《知网》的关键 《知网》的灵魂 关系 -- 关系的动态的、多层次的体现寓于静态的、 孤立的描述之中 意义的形式化、可计算 《知网》应用的关键 -- 新技术的引入 大语境 – 可能且受鼓励 元规则的机制 *

举例: 我上星期把自行车卖了。今天一大早买主来找我, 他说那车的车身有过硬伤,他要退货。 买主 -- the buyer 车 – bycicle (bike)? or car? 车身 -- the body of

sell|卖[agent,possession,target,cost] buy|买(X)sell|卖(Y) [mutual implication]; agent OF buy|买=target OF sell|卖; source OF buy|买=agent OF sell|卖; possession OF buy|买=possession OF sell|卖; cost OF buy|买=cost OF sell|卖. W_C=买主 G_C=N E_C= W_E=buyer G_E=N E_E= DEF=human|人,#commercial|商,*buy|买

W_C=自行车 G_C=N E_C= W_E=bicycle G_E=N E_E= DEF=LandVehicle|车 W_C=自行车 G_C=N E_C= W_E=bicycle G_E=N E_E= DEF=LandVehicle|车 车 – [last]查询

W_C=车身 G_C=N E_C= W_E=body of a vehicle G_E=N E_E= DEF=part|部件,%LandVehicle|车,body|身

唐飞请辞获准。 SYN_S=V --> V SEM_S=(事件,行动,使动/阻动) --> [结果事件] (事件) 请-示,请-转,请-来,请-教,请-吃,请-喝,请-提意见, SYN_S=V <-- V SEM_S=(事件) [递续] <-- (事件) 举枪-射击,拔枪-射击,拔刀-相助,拜师-学艺,打击-报复, 讨论-决定,讨论-通过,立案-侦查,报到-上班,挂号-交费, 细嚼-慢咽,登台-献艺,握手-告别,前来-报到,列队-欢迎, 泛滥-成灾,拨号-接通,离家-出走,纵火-焚烧,改恶-从善, 走私-贩私,出席-作陪,防火-护林,封山-育林,退耕-还林, 抗洪-救灾,团结-互助,团结-奋进,停职-检查,不治-身亡,

《知网》的未来 -- 共建、共享 扩充词语量、语种 应用中改进
