Adj + Noun到知识库中的Special Classes

Slides:



Advertisements
Similar presentations
English Grammar Edited and Published For Your Reference Only.
Advertisements

次丘镇中学 王正东. 1 .常见用法 定冠词 the 的用法 I saw a film last night.The film is very interesting. 昨天晚上我看了一部电影。这部电影非常有趣。 The bag on the desk isn't mine. 桌子上的那个书包不是我的。
1 )正确 2 )多词 3 )缺词 4 )错词 删除 补漏 更正 “1126” 原则 “1225” 原则 “1117” 原则.
1 南郭國小 翁正雄 95/06/09 教育部健康醫學學習網傳統醫 學學習館交流研習 資料來源:教育部六大學習網及簡介 健康醫學學習網及簡介.
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
L5-L6 Review Oct. 30, Adj. as predicate 1.She is tall and pretty. 2.His house is pretty but very small. 3.Is your book expensive ? (try different.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
第一冊第二課 師 說 韓愈.
奧林匹斯山 1.奧林匹斯山著名神話-周孫威 2.奧林匹斯山圖片-謝昕諭 3.奧林匹斯山相關故事-葉苡安 4.奧林匹斯山的眾神-李晉瑋-劉裕嘉
城市绿化美化 第一模块 城市的园林美 制作人:许启德 湖南湘潭生物机电学校 1.
第十一章 文獻資料分析法 M99E0202 吳孟樺.
二、信用工具和外汇.
企业涉税业务基本知识宣传 郑州航空港区国家税务局机场税务分局 王 磊.
第四章 心理健康.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
公务卡使用说明.
第1章第3节 量化研究与质化研究 案例1:关于中学思想政治教师专业发展现状和需求的调查研究
情景导入 今年国庆升旗仪式结束后,留下5顿垃圾!.
专题八 书面表达.
财务知识培训 杨 秀 玲 2014年10月.
摩洛哥(Morocco) Welcome to Morocco!.
第一部分 语法专题研究 专题三 冠词.
第一章会计技能的内容 1.1会计技能的重要性.
第 五 課 愛蓮說 1.課文導讀 2.作者介紹 3.課文 4.注釋 5.應用練習 6.習作.
3. 一般問題 部份資料來源: YAHOO網 及本校08年升中學生提供
臺指選擇權介紹 中華民國九十年五月.
introduction of Shijiazhuang
湖州中学微课程 走进定语从句的世界 --初识定语从句 湖州中学 朱筱杭 湖州中学微课程.
实践 课题 周围环境对当代大学生成长的影响 指导老师:王永章 小组成员:陈荣、刘若楠、张红艳、吕雪丹、樊金芳、李惠芬、黄婧
Figure Interpreting. Introduction In recording an English figure, its three digits make one subsection, while in Chinese, its four digits make one subsection.
Unit2 School life Reading 2.
Thailand.
Noun+’s (名词所有格) 表示 “ ……的”.
Welcome Welcome to my class Welcome to my class!.
課務組 Curriculum Section
黃居仁 中央研究院語言學研究所 92年9月10日 「語言座標」研習營
Unit 2 Key points summary.
高考常考单选、写作句型默写.
Unit 4 My day Reading (2) It’s time for class.
Princeton WordNet Ontology
LCCC 2018 Spring Festival April 28, 2018.
Welcome to my class..
Chapter 3 Nationality Objectives:
My Internet Friend 名詞子句寫作.
GRANT UNION HIGH SCHOOL
Princeton WordNet Ontology
股票代碼:2545 皇翔建設股份有限公司.
Unit title: 学校 School Area of interaction focus Significant concepts
Have you read Treasure Island yet?
Adjective + Noun 到知识库中特定Types 王远 2018/11/22
劉崇汎 崑山科技大學 電腦與通訊系 DLL的建立與引用 劉崇汎 崑山科技大學 電腦與通訊系
Use of “得” and “的” de.
Unit title: 学校 School Area of interaction focus Significant concepts
Review and Analysis of the Usage of Degree Adverbs
Area of interaction focus
10 ROSES FOR YOU 2010 送你十朵玫瑰….
Directional complement 對 N V 越來越 Adj
学习要求: 1、了解《权利法案》制定的史实:内容、影响; 2、了解责任制内阁形成的史实:时间、含义; 3、理解英国资产阶级君主立宪制的特点。
子句 Clauses 黃勇仁.
红利、年金、满期金自动转入聚宝盆,收益有保底,升值空间更大
Thinking of WordNet 瞿裕忠
九月十七日 Do now-写中文 Who Name also is/are/am friend.
Happy New year.
學歷:輔仁大學中文系 97畢 經歷:達人女中97.7~98.2 新北市立三重高中98.6 ~101.7 台北市立景文高中101.8
Directional complement 對 N V 越來越 Adj
Adj + Noun映射到知识库中的classes
高考英语短文改错答题技巧 砀山中学 黄东亚.
綜合活動領域 -野外活動篇- 繩結(一) 感謝賴邑雯.陳夙娟老師提供---修改  .
行律法 做好事,得永生 信福音 信耶稣,得永生 众人问祂说:「我们当行甚么,才算做神的工呢?」
園區多元智能教育中心 一年級課表 科園、龍山、實小
Presentation transcript:

Adj + Noun到知识库中的Special Classes 王 远

Wikipedia文本中的 adj + noun 抽取 版本:2018/10 规模:15.9G 抽取Adj + NP(NP中只包含有noun) 过滤掉 adj 为数字类型的序数词 过滤掉adj/noun包含了特殊字符的情况 adj + noun : 13,309,280; adj : 834,028; noun : 2,436,532 过滤比较级和最高级 adj + noun : 12,819,292; adj : 831,202; noun : 2,361,237 过滤掉adj + nouns (noun的个数 > 1)的情况 adj + noun : 8,095,419; adj : 747,043; noun : 396,040 过滤掉adj + noun 为实体或noun为专有名词

adj + noun 统计 adj + noun : 8,095,419

adj + noun 中 adj 的统计 adj : 747,043 first other new same second many own many several same second

“WordNet 中 adj”有4,677个不在“adj + noun 中 adj” adj + noun 中 adjs 的统计 adj : 747,043 WordNet 中 Adjs “Adj + Noun 中 Adjs” 与 “WordNet 中 Adjs” 的overlap Total 21,557 16,880 adj.all 17,777 13,785 adj.pert 4,379 3,055 adj.ppl 76 40 “WordNet 中 adj”有4,677个不在“adj + noun 中 adj” 22232 adj.all ∩ adj.pert : 663; adj.all ∩ adj.ppl : 12 4677

adj + noun 中 noun 的统计 noun : 396,040 school system version form people style group state approach time year years life season school

adj + noun 中 noun 的统计 noun : 396,040 WordNet 中 Nouns “Adj + Noun 中 Nouns” 与 “WordNet 中 Nouns” 的overlap Total 119188 35629 noun.person 18899 6703 noun.artifact 16381 6655 noun.act 9459 5274 noun.communication 8300 3882 noun.attribute 4802 3255 noun.state 5622 2726 noun.cognition 4429 2465 noun.animal 14324 2351 noun.substance 4639 1949 noun.plant 17809 1614 noun.group 3972 1381 noun.food 3595 1237 noun.location 4907 1194 noun.body 3572 1132 noun.event 1663 1064 noun.object 2303 867 noun.quantity 2031 844 noun.process 1127 665 noun.feeling 773 610 noun.possession 1520 563 noun.time 1689 532 noun.phenomenon 986 416 noun.shape 540 357 noun.relation 679 312 noun.Tops 83 63 noun.motive 78 41

noun WordNet overlap Adjs + [attribute] 698 656 Nouns + [attribute] part_of_speech Synset (320) noun Synset1 part_of_speech adjective attribute (620) WordNet overlap Adjs + [attribute] 698 656 Nouns + [attribute] 606 502 656/698

THKS

背景 Adj + Noun 也是问句理解中重要的部分。比如,大部分的KBQA的问答系统(例如:gAnswer)都将”adjective + noun” 映射到”special classes” Adj + Noun –> special classes 的一般方法 通过计算lexical similarity between the “adj + noun” and the class name nuclear weapon yago:NuclearWeapons yago:NuclearWeapon103834604 lexical similarity 常用方法 编辑距离 Word2Vec SimHash Jaro Distance

Motivation 一般方法的问题 当 “adj + noun” 的字面与 class name 相差比较大时就会映射不上 例如:” atomic weapon” 就无法准确映射到 yago:NuclearWeapons 只依靠 lexical similarity 会导致映射错误 例如: public library yago:PublicLibraries 6个实体 yago:PublicLibrary107978170 262个实体 问句中上下文信息难以利用 Which Greek goddesses dwelt on Mount Olympus? Which European countries have a constitutional monarchy? Give me all American presidents in the last 20 years. Give me all chemical elements. 类在知识库中上下文信息 类与类之间的信息 实体与类之间的信息 利用Wikipedia将adj + noun与知识库中的实体/类关联起来 在线检索 + 统计学习 离线构建资源库

1.adj + noun 的识别和抽取(Wikipedia中的文本) 2) adj + noun 的候选classes生成 English engineer city yago:Engineer109615807 Class2 Class3 Class4 资源库构建策略 1.adj + noun 的识别和抽取(Wikipedia中的文本) 2) adj + noun 的候选classes生成 3) 候选classes的过滤和重排序 4) 资源库的扩充(利用WordNet和PPDB) 实验评估 候选classes的过滤和重排序中”分类器”的评估 资源库的评估 资源库中的 ”adj + noun” 在问答数据集中的覆盖率 资源库中的 ”adj + noun –> special classes ” 在问答数据集中的正确率

Wikipedia文本中的adj + noun 抽取 文本语料:4,641,892 Wikipedia articles 工具:Stanford NLP POS 过滤规则: 1.过滤掉adj为序数词的情况 2.过滤掉adj + 特定名词 3.过滤掉adj是比较级、最高级的形式 4.过滤掉adj + noun是实体的情况 5.过滤掉adj/noun包含了特殊字符的情况 6.过滤掉出现频率较低的adj + noun 7.没有考虑adj + noun + noun的情况 adjs:26,693 adj + noun:288,452 平均每个adj会修饰10.8个nouns

目的 获取adj可能修饰的nouns 将Adj + Noun映射到知识库(DBpedia)中的classes yago:Engineer109615807 engineer Class2 Class3 English Class4 city Class5 Class6

Adj + noun 的抽取 语料源:Wikipedia

2. Adj + noun 的候选classes生成 yago:CausalAgent100007347 yago:Colleague109935990 yago:ComputerScientist109951070 yago:ComputerUser109951274 yago:Contestant109613191 yago:Engineer109615807 yago:MilitaryOfficer110317007 …… Type English engineer yago:Businessperson109882716 yago:Capitalist109609232 yago:CausalAgent100007347 yago:CivilAuthority110541833 yago:Donor110025730 yago:Engineer109615807 yago:Contestant109613191 …… Type

候选Class在Ontology Class体系中所处的层级 3. 候选classes的过滤和重排序 人工标注 + 分类 <English, engineer> 的候选class及其特征 Adj + Noun 与 class 共现次数 候选Class在Ontology Class体系中所处的层级 候选Class所处层级有几个class Noun 与 class 字面相似度 Noun 与 class 语义相似度 人工 标注 yago:CausalAgent100007347 1 …… yago:Colleague109935990 yago:ComputerScientist109951070 yago:ComputerUser109951274 yago:Contestant109613191 yago:Engineer109615807 2 3 10 0.81 0.92 yago:MilitaryOfficer110317007 owl:Thing

4. 资源库的扩充 WordNet 和 PPDB Class1 Noun1 Class2 Class3 Adj Class4 antonymy Noun2 Class5 Class6 Adj2

thks