Download presentation
Presentation is loading. Please wait.
1
Numeral Property Classification
Jiajie Yu Wentao Ding
2
工作内容 提供一种KG上数值型属性的知识表示方法 将数据映射到该表示下 分类体系 数据结构 相关属性 操作 结构化数据(DBpedia)
半结构化数据(data.gov) 文本数据
3
Numeral Property Taxonomy
4
分类体系对比-认知科学 Level of Measurement Statistical Datatype 对比:
nominal, ordinal, interval, ratio name, grade, rank, counted fractions, counts, amounts, balances Statistical Datatype binary, categorical, ordinal, binominal, count, real-valued additive, real-valued multiplicative 对比: 综合继承了部分Scale,以及部分具体Class Scale:nominal、ordinal 细化、合并、新增了部分Class和Scale,增强了覆盖面 细化了nominal、ordinal等Scale 合并了interval、ratio中数量相关的数值到Quantity Scale 新增了ratio、numeric、time等Scale 递进的分类 vs 平行的分类(更接近Statistical Datatype) 对“数”分类 vs 考虑数值、量纲的分类(拆分了Quantity、Ratio、Numeric)
5
分类体系对比-知识图谱 DBpedia Wikidata 对比: 简单datatype vs 多字段datatype
19个XML&RDF datatype,e.g. xsd:date 23个super-datatype (e.g. Length),340个specific-datatype (e.g. height) Wikidata 12种datatype Quantity, Dates & Times, Web resources and other IRIs, Geographic locations, Geographic shapes…… 对比: 简单datatype vs 多字段datatype 对于Numeral Property做了更细化的区分 DBpedia的分类仅限于Time(除周期)、Measure Wikidata通过Quantity统一表示除Time以外的所有数值
6
Nominal Scale Identifier Example:{red;hexCode;#F08080} Datatype:String
Attributes: rdfs:comment说明编码方式,如“座机号码”的编码方式为“区号-具体号码” Operation:Query、Equals 不支持比较v1.0和v1.2的顺序 Usage: 已知S查询O 红色的hex编码是什么 已知O查询S #FFFFFF是哪个颜色的hexCode 判别两者是否表示同一个对象 (同一实体的多个表示)hexCode=#FFFFFF、rgbCode=255,255,255均表示白色; (实体对齐)white和误拼写的wite的hexCode都为#FFFFFF
7
Nominal Scale Category Example:{BWM M8;color;#F08080} Datatype:String
Operation:Query、Equals Usage: 已知S查询O 某个氨基酸是什么类属 对某个类别的对象计数 有多少种某个类属的氨基酸 判别两者是否是同一类别 两种化学物质是否同为醇
8
Ordinal Scale Grade Example:{panda;endangeredCategory;I}
Datatype:String Operation:Query、Equals、Compare 在偏序情况下,Compare只能给出两个定义了序关系的对象的比较结果 Usage: 已知S查询O 某动物的物种濒危等级 对某个类别的对象计数 有多少种一级濒危的动物 比较类别的高低 华南虎和娃娃鱼哪个濒危程度更高
9
Ordinal Scale Rank Example:{Justin Bieber;iTunesSalesRank;1} Datatype:
Section:= [PostiveIntegerA, PositiveIntegerB, Symbol] 精确数值“8”,表示为[8,-.-];精确区间“8-12”,表示为[8,12,-] 不精确区间“>8”,表示为[8,-,>] Attributes: orderBy:排序对象对应的PropertyURI,如:“专辑销量排名”对应“专辑销量” Operation:Query、Equals、Compare Usage: 已知S查询O 某歌手的专辑销量排名 已知O查询S 2018年美国ITunes音乐排行榜第一的歌曲是什么 比较、最值 2018年,陈奕迅和周杰伦谁的专辑更畅销(比谁的销量更大、或排名更小) 2018年,专辑销量最多的歌手(rank=1,或对count排序再取top-1)
10
Quantity Scale Count Example:{Obama;childrenNum;2} Datatype:
Count := [Section, wordUnit] wordUnit := String(可缺省) 通常是容器、物质的一部分,用作可数或不可数名词的非科学型度量单位 如:dozen, bag, bottle, cup…… Attributes: countBy:所计数的对象对应的PropertyURI,可能是一个list。如:childrenNum,对应的可能是 Daughter、Son等Property。 DiscreteMapping:连续区间与离散描述之间的对应关系 Operation:Query、Equals、Compare Usage: 回答计数型问题 某歌手发行的专辑数量(既可以枚举后计数,也可以直接查找对应的count型Property) 比较、最值 2018年,陈奕迅和周杰伦谁的专辑更畅销(比谁的销量更大、或排名更小) 2018年,专辑销量最多的歌手(rank=1,或对count排序再取top-1)
11
Quantity Scale Measure Example:{Obama;height;182} Datatype:
Count := [Section, IRIUnit] IRIUnit := IRI(可缺省) 科学计量单位,为Unit命名空间里已定义的IRI,如:centimeter, watt, kilogram…… Attributes: standardUnit:标准单位,取值是Unit命名空间里的IRI Max & Min:(推测得出的)Range的最大值、最小值 subClassOf:以Class-Property作为Property的一个语义元,构建Hierachy。“身高”、“海拔 ”、“厚度”等都作为Length的下位Property。 DiscreteMapping:连续区间与离散描述之间的对应关系 Operation:Query、Equals、Compare Usage: 已知S查询O:某人的身高 比较:A和B谁更高 最值:世界上最高的山
12
Quantity Scale Score Example:{Amy;toeflScore;98} Datatype:Double
Attributes: Max & Min:(推测得出的)Range的最大值、最小值 DiscreteMapping:连续区间与离散描述之间的对应关系 Operation:Query、Equals、Compare Usage: 已知S查询O 某人的托福得分 比较、最值 A和B谁的托福得分更高 2013年江苏高考,总分最高的考生是谁
13
Ratio Scale Ratio Examples: Datatype: Attributes:
{France vs Maxico;2010WordCupScore;0:2} {BTV;viewshipRate;0.566} Datatype: 百分比比值:Double % 实数比值:Double 比例:String(以“:”分隔) Attributes: comparedProperty:按顺序枚举进行比较的Property形成的list Max & Min:(推测得出的)Range的最大值、最小值 Operation:Query、Equals、Compare、乘除法 Usage: 已知S查询O: 2010年世界杯法国和墨西哥的比分是多少 帮助计算以获取额外的Quantity信息(利用ComparedProperties) 已知某混凝土的水泥泥沙混合比,以及水泥的质量,求所需泥沙的质量
14
Numeric Scale Numeric Example: Datatype: Operation: Usage:
{π;approximation; } Datatype: Double:绝大多数Numeric String:少数符号表示的Numeric,如:π、虚数、希腊数字 Operation: Query、Equals、Compare、各类数学运算 Usage: 已知S查询O: π的近似值是多少 希腊字母II表示的数值是多少
15
Time Scale Instant Example: Datatype: Attributes:
{SpaceX_COTS_Demo_Flight_1;decisionDate; } Datatype: Instant := [Date, Before, After, (UTC)Timezone, (Gregorian or Julian)CalendarModel] Date := [FormatString(ISO 8601), Precision] Precision := shortint ( ..., 9-year, 10-month, 11-day……)表示FormatString有意义的位数 Before/After := Duration …… Attributes: timeLineFor:为时间序列数据提供标签。 记录小白鼠的白细胞数量(wbcCount)随观测时间(observationTime)变化的数据序列, observationTime.timeLineFor = wbcCount Operation:Query、Equals、Compare、时间相关计算 Usage: 计算时间差 一战和二战之间间隔了多少年 比较事件发生的先后顺序 选手A和选手B,谁先获得了100个进球的成就 量化数值随时间的变化率(利用timeLineFor)
16
Time Scale Time Interval Example: Datatype: Operation: Usage:
{Word War II;duration; : } Datatype: Time Interval := [StartTime, EndTime, Duration] StartTime | EndTime := Instant Duration := [ISO8601 Format String,Precision] [P6Y0M1DT0H0M0S, 3] Operation: Query、Equals、Compare、时间相关计算 Usage: 时段补全 已知3元中的任意2元,可以计算得到第三元 查询、比较时段 二战持续了多久 A和B两个运动员,谁完成1500m游泳的时间更长
17
Time Scale Periodicity and Frequency Example: Datatype: Operation:
{Nature;Frequency;weekly} Datatype: Periodicity and Frequency := [Period, Frequency] Period := Duration Frequency := String (Not Format) Operation: Query、Equals、Compare、时间相关计算 Usage: 预测某事件下次发生时间 已知上次发生时间和周期,计算下次发生时间 查询频率、周期 奥林匹克运动会多久举行一次
Similar presentations