Dongqiang@keenage.com dzd@keenage.com 意义计算的实现 董强 董振东 dongqiang@keenage.com dzd@keenage.com www.keenage.com.

Slides:



Advertisements
Similar presentations
南 通. 南通概述 南通,位于江苏省东部, 东抵黄海,南望长江。 “ 据江 海之会、扼南北之喉 ” ,隔江 与中国经济最发达的上海及 苏南地区相依,被誉为 “ 北上 海 ” 。 南通也是中国首批对 外开放的 14 个沿海城市之一 ,被称为 “ 中国近代第一城 ” 。 南通面临海外和内陆两大经 济辐射扇面,素有.
Advertisements

“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
1 天天 5 蔬果 國立彰化特殊教育學校 延杰股份有限公司營養師:陳婷貽. 2 蔬果彩虹 579 蔬果彩虹 歲以內兒童,每天 攝取五份新鮮蔬菜水 果,其中應有三份蔬 菜兩份水果 蔬菜份數水果份數總份數 兒童 325 女性 437 男性 549.
高等学校英语应用能力考试 考务培训 兰州文理学院教务处 2014 年 12 月. 考务培训 21 日请监考人员上午 8:00 (下午 2:30 )到综合楼 205 教室集合,查看 监考安排,由考务负责人进行考务 培训。
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
語言與文化通識報告 - 台日年菜差異 - 指導老師 : 葉蓁蓁 小組 : 日本微旅行 組員 :4a21b032 吳采玲 4a21b037 沈立揚 4a 洪雅芳 4a 陳楚貽 4a 王巧稜.
我的未来不是梦 攀枝花市经贸旅游学校. 1. 文中案例王萍苦恼的原因是 什么? 2. 你有哪些办法可以帮助王萍? 导入 思考  谁来帮帮她?
均衡推进,确保质量 08学年第一学期教学工作会议 广州市培正中学
审核评估释义 余国江 教学质量监控与评估处.
黑木耳.
投資權證13問 交易所宣導資料(104) 1.以大盤指數為標的之權證,和大盤指數的連動性,為什麼比和期交所期指的連動性差?
月子保姆理论知识试卷.
如何把作文写具体.
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
广州宜家选址分析 0连锁 李若谷 陈玉风 黄小飞 蓝柔盈.
大洋洲.
千秋大业在担当 《中国共产党问责条例》解读提纲.
市直单位财务明细信息表 填报说明 珠海市财政局 2013年12月 1.
当代 国 际 关 系(案例6) 冷战时期美苏关系的演变.
第5章 排版的高级应用.
大型探索节目《谜》之 感恩.
企业所得税几项热点难点 业务问题讲析 湛江市地税局税政科 钟胜强.
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
佛教大雄中學 2007年度香港中學會考 放榜輔導 升學及就業輔導組.
四資二甲 第三週作業 物件導向程式設計.
通用技术教学与实践 常德市鼎城区第八中学 刘启红.
创业计划书的编写 白城师范学院创业教育 与文化研究中心 陆东辉.
生物学 新课标.
愛心月課程活動 設計者:洪雪玲老師.
低碳生活,从小事做起 编辑人:刘瑞兴 指导老师:麦文燕 吴霞 编辑地址;岭南师范学院附属中学 编辑时间:
《乡村教师支持计划 年》 解读.
1-3 探究自然的科學方法.
战 后 国 际 关 系 专题五:冷战时期美苏关系的演变 政治学与行政管理系.
經濟部文書作業實務 報告人:何國金.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
市级个人课题交流材料 《旋转》问题情境引入的效果对比 高淳县第一中学 孔小军.
本活動 想解決的問題是……. 本活動 想解決的問題是…… 130最少要加上多少才能被8整除? 130最少要減去多少才能被8整除? 《除法定理》 被乘數=乘數 x 商 + 餘數.
2010年高考语文《考试大纲》对本考点的要求是:“正确使用标点符号。”能力层级为D(表达应用)。
雷 霆 战 机 By—谷恩轩&余万全.
合肥财经职业学院 CET四六级考试监考培训 教 务 处 2012年6月13日.
雞蛋這樣孵出小雞的 動物的生殖 Part I.
崇右技術學院 電子公文線上簽核系統教育訓練
书 法 鉴 赏.
注重物理基本思想和方法教学 讲究实效 ——2012年高考物理复习备考建议
經國管理學院 電子公文線上簽核系統教育訓練
我是礼仪小达人 文明 语言 礼貌 诚信.
三角形的邊角關係 大綱:三角形邊的不等關係 三角形邊角關係 樞紐定理 背景知識:不等式 顧震宇 台灣數位學習科技股份有限公司.
考生注意事項 2015.
授课老师:龚涛 信息科学与技术学院 2018年3月 教材: 《Visual C++程序员成长攻略》 《C++ Builder程序员成长攻略》
意义的计算 -- 知网的进展与应用 董振东 董强 中科院计算机语言信息工程研究中心 语言知识研究室 Tel: (8610)
國有公用財產管理簡介 總 務 處 保管組 104年04月07日.
保留字與識別字.
意义的计算 -- 知网的进展与应用 董振东 董强 中科院计算机语言信息工程研究中心 语言知识研究室
管理心理学 职业经理人心理素养提升 讲师:孙阳.
<编程达人入门课程> 本节内容 为什么要使用变量? 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ:
第二章 Java语法基础.
公务卡日常管理篇 办卡激活/遗失补办/ 停用销卡/额度调整 财务处 2016年.
高雄半日遊 西子灣-旗津-駁二.
資料結構簡介 綠園.
▲重合的概念 ▲對應頂點、對應邊、對應角 ▲全等的記法 ▲全等性質 ▲三角形全等性質
#include <iostream.h>
第二章 Java基本语法 讲师:复凡.
大学计算机基础——周口师范学院 第3章 Word字处理软件 3.8页眉与页脚.
綜合活動領域 -野外活動篇- 繩結(一) 感謝賴邑雯.陳夙娟老師提供---修改  .
基本資料型態 變數與常數 運算子 基本的資料處理 授課:ANT 日期:2014/03/03.
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
异常交易监管等监察业务培训 大连商品交易所 监察部 2018年4月.
走讀台灣旅遊計畫範本.
Presentation transcript:

dongqiang@keenage.com dzd@keenage.com 意义计算的实现 董强 董振东 dongqiang@keenage.com dzd@keenage.com www.keenage.com 第一届全国知网研讨会 2008.05.18

提纲 相似度的计算 相关概念的计算 知网英汉翻译系统 在意义计算中,一些常用的函数

容易混淆的两个概念 词语相关性——反映的是两个词语互相关联的程度,即词语之间的组合特点,它可以用词语在同一个语境中共现的可能性来衡量。 词语相似性——反映的是词语之间的聚合特点。

什么是概念的相似度 概念相似度是一个主观性很强的概念,会根据不同的应用而产生不同的定义。

实现方法 同义词 同类词 反义或对义词 抽取参与计算的DEF片段 概念计算

实现方法—特殊情况 在符合下列情况是直接得出相似度值,无需其他计算: 同义词 相似度为1.000000。 同类词 相似度为0.950000。 反义或对义词 (仅限于单个义原) 相似度为0.000000。

实现方法—抽取DEF 不是所有的概念都是直接拿到DEF就进行计算的,有些概念中存在特殊的动态角色,需要特别的处理。对于动态角色CoEvent, 需要用CoEvent 后面的KDML部分作为这个词语的DEF来参与计算,用以建立不同类别词语之间的关系。如 : 旅程(名词): DEF={fact|事情:CoEvent={tour|旅游}}。 旅行(动词): DEF={tour|旅游}

实现方法—四个部分 公式: Sim(D1,D2) = (P1*β1+P2*β2+P3*β3+P4*β4)* γ 概念相似度的计算分为4个部分来进行。 β是每一个部分计算结果的权值。 β1+β2+β3+β4 =1, 目前我们指定:β1=0.1,β2=0.1,β3=0.7,β4=0.1。 γ为惩罚因子。

实现方法—包含关系的计算(部分1) 两个DEF相互包含关系的计算 公式:P1 = 1/L L:包含关系存在的层次

实现方法—包含关系的计算(部分1) “心理医生”: DEF={human|人:HostOf={Occupation|职位},domain={medical|医},{doctor|医治:agent={~},content={disease|疾病:cause={mental|精神}}}} “医生”: DEF={human|人:HostOf={Occupation|职位},domain={medical|医},{doctor|医治:agent={~}}} “手指”: {part|部件:whole={part|部件:PartPosition={hand|手},whole={human|人}}} “手”: {part|部件:PartPosition={hand|手},whole={human|人}}

实现方法—概念主类相似度的计算(部分2) 两个概念主类之间的相似度的计算 公式:P2 = α / ( d +α ) d为两个主类义原在Taxonomy树上的距离。 α= 1 。 距离与相似度为反比关系,即距离越近相似度越高。

实现方法—概念主类相似度的计算(部分2) “human|人” : entity|实体 => thing|万物 => physical|物质 => animate|生物 => AnimalHuman|动物 => human|人 “tree|树” : entity|实体 => thing|万物 => physical|物质 => animate|生物 => plant|植物 => tree|树

实现方法—节点相似性的计算(部分3) 同层相同节点的计算; 对于动态角色domain的进一步处理; 两个DEF相同节点数与总节点数的计算 具体包含如下三个方面的计算: 同层相同节点的计算; 对于动态角色domain的进一步处理; 两个DEF相同节点数与总节点数的计算

实现方法—节点相似性的计算(部分3) “患儿”: DEF={human|人:domain={medical|医},modifier={child|少儿}, {SufferFrom|罹患:experiencer={~}},{doctor|医治:patient={~}}} “儿科医生”: DEF={human|人:HostOf={Occupation|职位},domain={medical|医}, {doctor|医治:agent={~},patient={human|人:modifier={child|少儿}}}}

实现方法—节点相似性的计算(部分3) 患儿 儿科医生 第一层 ZeroRole={human|人} 第二层 domain={medical|医} modifier={child|少儿} HostOf={Occupation|职位} ZeroRole={SufferFrom|罹患} ZeroRole={doctor|医治} 第三层 experiencer={~} agent={~} patient={~} patient={human|人} 第四层

实现方法—节点相似性的计算(部分3) 同层相同节点的计算 公式:S1 = Nsim / Nmax / 2x Nsim :同层相同节点数 Nmax:同层最大节点数 2x :x是层次数 那么以上我们所举的例子的计算结果为: S1 =1/21 + 0.5/22 + 0/23 + 0/24 =0.5 + 0.125 + 0 + 0 =0.625

实现方法—节点相似性的计算(部分3) 对于动态角色domain的进一步处理。 如果两个DEF中都存在domain,并且domain的值也相同,那么不论这两个domain是否在同一个层次,都要再一次对domain 进行计算。 公式: S2 = a/ 2x a:相同domain节点个数 x:指定为两个DEF的最深层数。 上面例子通过计算这部分的相似度值为: S2 = 1/24 = 0.0625

实现方法—节点相似性的计算(部分3) 两个DEF相同节点数与总节点数的计算 公式:S = a*2/(d1+d2) a:相同节点个数 d1 :第一个DEF的节点总数 d2 :第二个DEF的节点总数 本例中相同节点数为3,总节点数为14。 S3 = 3*2/14 = 0.428571

实现方法—节点相似性的计算(部分3) 公式: P3 = (S1+S2)*0.7 + S3*0.3 根据上面的例子 P3 = (0.625+0.0625)*0.7 + 0.428571*0.3 = 0.48125+0.128571 = 0.609821

实现方法—主类义原框架的计算(部分4) 两个DEF主类义原框架的计算,其计算方法与部分3相同。 ├ {ActGeneral|泛动} {act|行动:agent={*}} │ ├ {start|开始} {ActGeneral|泛动:agent={*},content={*}} │ ├ {do|做} {ActGeneral|泛动:agent={*},content={*},manner={*}} │ │ ├ {try|尝试} {do|做:agent={*},content={*}}

实现方法—惩罚因子 在下列情况下需要对计算结果进行惩罚性修订: 存在否定关系。惩罚因子为0.3。 存在下列指定关系。惩罚因子为0.35。 agent patient experiencer target relevant content existent partner possessor PatientProduct PatientContent possession

什么是相关概念场 相关是指不同的概念在某种语境中共现的可能性。 相关概念是指词语所代表的概念与哪些概念相关。 相关概念场是一个相关概念的集合,是与一个词语的某个概念相关的所有概念的集合。

相关概念场的特点 基于概念 词语的相关性最终应归结于词语所代表的概念的相关性。 大范围 中英文词语各9万多,概念各11万多。 跨语种(cross-language) 中文与英文双语的系统。

相关概念场的应用 语义排歧 文本聚类

实现方法 从查询步骤来看,可以分为共性查询和个性查询 在查询范围上,共有三个级别

实现方法—共性查询 共性查询包括 同类、反义或对义以及高度相关的动态角色项:domain 、MaterialOf、RelateTo 共性查询在三个级别的查询范围和所有义原类都适合,并且查询范围为第一级时只进行共性查询。

实现方法—共性查询 动态角色:domain的特殊性

实现方法—个性查询 个性查询是根据概念主类划分的,共分为: 事件、实体、属性、属性值

实现方法—个性查询(事件类) 第二级查询: 根据DEF主类的节点深度决定查询方式,目前定义为节点深度大于4时进行查询。 如:“煲汤”

实现方法—个性查询(事件类) 第三级查询: 根据DEF主类的义原框架进行模糊查询。 如:“出阁” 遍历实体类每一个义原的框架,找出包含DEF主类的义原,并以这个义原作为DEF进行精确查询。 如:“吃”

实现方法—个性查询(实体类) 第二级查询: 根据DEF主类进行First方式的查询。 如:“禾苗” 如:“大春作物”

实现方法—个性查询(实体类) 第三级查询: 抽取DEF中深层的事件类概念片段进行查询。 抽取DEF主类义原的框架的概念片段进行查询。 如:“天空”

实现方法—个性查询(属性类) 找出所有属于这个属性的属性值,根据这些属性值进行查询 特别处理“scope” 如:“饭量”

实现方法—个性查询(属性值类) 找出这个属性值所属的属性,根据这一属性进行查询 特别处理“scope” 如:“长篇”

知网英汉翻译系统 知网英汉翻译系统是一个基于规则的翻译系统 三大组成部分: 程序部分 知网知识词典 规则 程序的三个组成部分: 词法处理 语法和语义分析 译文生成

词法处理 分词 组词 查单词 短语匹配 信息提取 生词处理

词法处理—分词 英文分词需要注意的几个问题: 标点符号:“,” “-” “'” 数字:可能是时间 英文句号:“.”

词法处理—组词 英文中有大量由“-”和“'”构成的词语, 如:Al-Qa'ida(“基地”组织)、T-shirt 特例:brother’s

词法处理—查单词 在真实文本中,英文单词会根据时态、数量、人称的不同而产生不同的变体。 I am reading. He has two books.

词法处理—查单词 还会因英文语法的需要加上不同的前后缀而产生词性的变体,如:tion、less、ness。

词法处理—查单词 因词义的需要加上前后缀而产生的变体,如: un、re、mini、micro。

词法处理—短语匹配 一般情况下词典中保存的短语往往不能直接与真实文本中的相匹配,由于在查单词时已经做了一定的工作,我们可以在此基础上通过排列组合,使词典中的短语和文本中的相匹配。

词法处理—信息提取 保留词尾信息 保留大小写信息 判定是否为同形

词法处理—生词处理 普通数字 序数词 时间 未收录名词

语法和语义分析 组成部分: 主控程序 规则解释器 特点: 充分利用了知网丰富的词汇信息和强大的语义系统 规则描述语言可以直接引用KDML

语法和语义分析 在规则中可以对每一个词语的每一个概念做出如下的提问: 指定的词语是否存在或包含某个概念,如: DEF={human|人:{SufferFrom|罹患:experiencer={~}}} DEF>{human|人:{SufferFrom|罹患:experiencer={~}}} 指定词语的概念主类是什么 指定词语的概念主类的上位为某个概念 指定词语的概念主类的父节点为某个概念 概念A是否为概念B的整体

译文生成 经过语法和语义分析,已得到了句子各成分间的逻辑语义关系,在此基础上,把上述逻辑语义关系,依照汉语的语法和语言习惯,进行适当的添加和调整,最后得出汉语译文。

在意义计算中,一些常用的函数 DEF的存储结构 包含关系 比较关系 片段提取

在意义计算中,一些常用的函数 DEF的存储结构如下: struct S_DEF_NODE { WORD Domai; // 域 WORD Class; // 类 char Fathe; // 父节点 char Exten; // 扩展标记,记录从哪个节点扩展出来的 char Layer; // 层次; char S_Off; // 子节点起始位置 }; struct S_DEF BYTE NodeNum; // 节点个数 BYTE SemeNum; // 义元个数 S_DEF_NODE Node[Max_Seme_Num]; //

在意义计算中,一些常用的函数 包含关系的计算: 用法: int Def_Match( const S_DEF* ApsA , const S_DEF* ApsB , int AiNodeA = 0 , int AiNodeB = 0 ) bool Def_Match_Recursion( const S_DEF* ApsA , const S_DEF* ApsB , int AiNodeA , int AiNodeB ) 功能: 判断DEF_A是否包含DEF_B; 判断DEF_A是否从指定节点开始包含DEF_B 参数: 返回值: N >= 0:DEF_A从第N个节点开始包含DEF_B; N < 0:DEF_A不包含DEF_B

在意义计算中,一些常用的函数 比较关系: 用法: int Def_Compare( const S_DEF* ApsA , const S_DEF* ApsB , int AiNodeA = 0 , int AiNodeB = 0 ) 功能: 从指定节点开始比较,判断DEF_A 与 DEF_B的大小; 参数: const S_DEF* ApsA: const S_DEF* ApsB: int AiNodeA: int AiNodeB: 返回值: >0 : A>B; < 0 : A<B ; == 0 : A == B;

在意义计算中,一些常用的函数 片段提取: 用法: void Capture_Def( const S_DEF* ApsDef , S_DEF* ApsRlt , int AiCurNode ); 功能: 从指定的节点开始提取一个DEF片段 参数: const S_DEF* ApsDef :源DEF; S_DEF* ApsRlt :提取结果 ; int AiCurNode :指定的节点; 返回值: 无

在意义计算中,一些常用的函数 实例一:提取一个部件的整体部分 {part|部件:whole={part|部件:PartPosition={hand|手},whole={human|人}}} 提取结果: {part|部件:PartPosition={hand|手},whole={human|人}} 实例二: {InstitutePlace|场所:domain={medical|医},{doctor|医治:content={disease|疾病},location={~}}} 提取结果: {doctor|医治:content={disease|疾病}}

谢谢大家 欢迎提出 宝贵的意见与建议!