Download presentation
Presentation is loading. Please wait.
1
对比型摘要 徐丹云
2
背景 人工完成实体是否共指的任务 Feature数量多,不利于人观察,耗时多
3
例子 Place1 Place2 officialName:Olympie Population:1208 Lat:37.64788
Type:Feature featureCode:P.PPL parentCountry:Dimos Olympia Long: locationMap:… name:Ancient Olympia Type:Feature Lat: Long: Type:AdministrativeRegion Type:Region Country:Greece Long: Name:Ancient Olympia postalCode:27025 Type:YagoLegalActorGeo …
4
问题定义 目标 文字描述:在长度限制的情况下,选择若干个 feature,使得这些feature之间的贡献最大化 组合优化问题
F(i,j)表示feature i和feature j对于判断共指的贡献 entity1和entity2的所有feature之间两两定义f(i,j) 二维数组(m+n)*(m+n) 文字描述:在长度限制的情况下,选择若干个 feature,使得这些feature之间的贡献最大化 组合优化问题
5
数学模型 二次背包问题 项:features pij:feature i和feature j的贡献 Wj:feature j的字符长度
6
函数定义 A,B:实体内部feature之间的贡献diff: 去重问题 Isub:-similarity(value1,value2) A
C 对角线:feature i的信息量:inf
7
函数定义 A,B:实体内部feature之间的贡献diff: 去重问题 Isub:-similarity(value1,value2) A
C C:实体之间feature的贡献div: 分情况: sim(vi,vj) < 0: div = sim*compij*(2*ifpi*ifpj/(ifpi+ifpj)) sim(vi,vj)>0: div = sim*compij*(2*fpi*fpj/(fpi+fpj)) sim(vi,vj)=0: div = 0; Ifp: (p对应的feature数)/(p对应的不同的o数) Fp: (p对应的不同s数)/(p对应的feature数) 对角线:feature i的信息量:inf 目标函数:𝛼∗inf+𝛽∗𝑑𝑖𝑓𝑓+𝛾∗𝑑𝑖𝑣 实验确定参数
8
摘要呈现 fx fy 设置阀值x,去掉小于x的边 找到所有的联通分支,每个连通分支的score: (所有边的profit总和)/(节点数)
按照从大到小的顺序呈现各个连通分支,孤立点放在最后
9
Thanks
Similar presentations