数据集的抽取式摘要 程龚, 徐丹云.

Slides:



Advertisements
Similar presentations
第二章 中国的自然环境 地理组 王铁塔. §2.1 地形和地势 学习目标: 1 、 知道我国主要的地形、山脉的名称及山脉 走向的概念。 2 、通过阅读统计图表,总结我国山区面积广大的地 形特征。 3 、了解山区开发、利用的有利条件和不利条件 。 考试要求: 1 、了解我国地形复杂多样,山区面积广大的特征。
Advertisements

走进社区、走进部门、走进农村 民进海宁市总支部. 民进海宁总支开展 “ 走进社区、走进部门、走进农村 ” 活动: 1 、为了积极履行民主党派的职能,搜集社情民意,为政府工作出谋划策。 2 、让民主党派走进群众,让群众了解民主党派。 3 、通过 “ 三走进 ” ,进行访贫问苦,搜集民情民声,构筑群众与政府的桥梁,
天然 養生 樂活 年貨集錦 田森館 - 艾草之家. ‧環保健康生活小常識 : 日常使用的家中日用品,包含各種各樣的化學物質,這些化學物質,有些頗具 毒性,有些雖然沒有急毒性,但暴露日久卻會造成慢性中毒,導致健康受損, 甚至致命。 環境荷爾蒙會影響人類或其他生物的生殖能力與發育,其中一類的「壬基酚 (
义务教育课程标准实验教科书人教版七年级上册第 24 课 《散文诗两首》之 —— 荷叶 母亲 宁夏彭阳县王洼中学 庞鸿渊 冰 心冰 心.
F 15.1 股票指数的功能 F 15.2 股票指数的分类 F 15.3 股票指数的编制 F 15.4 如何编制不同功能的股票指数 F 15.4 中外主要股票指数.
问题 1 :如图,某人由入口 A 进入,顺着道路走到出口 B ,共有几种不同的行走路线 A 桥 B 分析:要从入口 A 走到出口 B ,需要两个步骤 第一步 ; 从入口 A 走到桥上,有两条路线 。 第二步 ; 从桥上走到出口 B 有三条路线 。 结论:从入口 A 走到出口 B 共有 2×3 种不同的行走路线.
分享成长的快乐 2010年3月刊 成长进行时 欢乐出版社.
第二节 植物的生殖生长 植物经历了一定的营养生长之后,在适当的条件下转入生殖生长阶段。 一、植物由营养生长转向生殖生长的条件
美味料理 5223汪芮臣.
软件测试 第3章 黑盒测试及其用例的设计.
资源高效提取 —超细磨、强化浸出、强化浮选成果介绍
分论坛二:04 山东交通学院 绩效考核管理的实践与思考 山东交通学院 李景芝
举国上下抗击风雪灾害专刊 温暖行动 灾情告急年关近 万众一心齐抗灾 可歌可泣留千古 温暖行动遍人间 导读提示 阳关雨露出版社
硕士论文开题报告 煤炭企业物流信息系统的 研究与设计 指导老师: 学生姓名: 学 号:
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
身边生活探索课专刊 进入 2006年第 3 期 总第 68 期 2006年3月2日出版 和谐出版社出版.
作文选刊 作文之窗
手太阳小肠经.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
快乐假期 2010年第6期 总第54期 贝尔芬 主编 暑期作文专刊 《快乐假期》杂志社 出版.
林森國小一年8班班親會 葉宛婷老師 103年9月19日 晚上7:00-8:30 地點:108教室.
安全知识 目录 封底 8 大众通用出版社
游泳四式技術分析暨初級教法.
【实训11】 产品质量法和消费者法的案例分析.
青铜器的器型 炊食器: 炊具:鼎、鬲、甗等 食器:豆、簋、敦、盨、簠等 酒器: 饮酒器:爵、角、觚、觯等 温酒器:斝
神奇的宇宙 我们的太阳系 宇宙中天体有哪些类型? 刊号:CN77-87 编辑: 施雅苑 今日一叠4版 第1期 认识宇宙 16岁的哈勃
第10章 行政效率.
第七章 NP问题选讲 邹权(博士) 计算机科学系.
教您如何选购血糖仪 之血糖仪选购篇 检测小窍门【如何检测血糖仪误差?】 糖友在医院使用生化检测血糖值时,同时使用血糖仪检测血糖值,并记录
剪纸是最为流行的中国传统的民间艺术之一,为了能够更好的宣传它,发扬它,我们成立了手工小组,并走访了民间剪纸高手温奶奶。在李英芳老师的指导下,一张普普通通的纸,经过构思、画稿、剪刻,能把我们的情感、审美趣味用不同的剪纸创作形式表达出来,变成了一个又一个艺术品。用它既可以美化环境,又可以美化我们的生活。
老师:如何撰写教研文章? 主讲:石修银 谨以此赠与孜孜追求的老师 谨以此赠与改变人生的老师.
依“标”据“本”,命制考题 发表于《数学教学》2006年第9期 (华东师大核心“CN”刊物)
感知学习 ——可视化学习平台.
今日4版 国内统一刊号:CN01-009第5期 (代号7-2)
亥 丁 随 想 2007/2 有为少年出版社.
12星座 对于星座,你又知道多少呢? 第一刊.
第九章 长期资产及摊销 2017/3/21.
数学通报简介 ——如何写稿及投稿 数学通报 郑亚利 2014年8月.
工業局推動性別主流化 經濟部工業局 何專門委員紀芳 104年12月2日.
入库验收 讲课人:卢玉娟 《仓储管理》.
崇拜即將開始,請大家安靜片刻, 預備心靈敬拜上帝。
2014—2 摇 篮 出 版 社.
第三章 社会 通过本章的学习,使大家了解社会的概念、认识社会的基本特征,掌握马克思主义看待社会的基本观点,了解社会结构、社会运行以及社会形态的内涵,内容或类型,把握社会学考察社会的基本视角。
推进《玻璃钢制品工》 国家职业资格证书制度的建设
本期导读: 1版 习 惯 2版 的 十个做人的好习惯 3版 力 4版 量 5版 6版 7版 8版
第七章 单总体假设检验.
总第八期.
Minimum Spanning Trees
Semantic Navigation Liang Zheng.
網路遊戲版 幸福農場168號.
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
SOA – Experiment 2: Query Classification Web Service
ISWC2014见闻 程龚.
資料結構與C++程式設計進階班 課程大綱 講師:洪安.
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
伯乐相马的故事 相传伯乐是春秋时代人,姓孙名阳。据说,有一匹千里马拉着沉重的盐车翻越太行山。在羊肠小道上,马蹄用力挣扎,膝盖跪屈;尾巴下垂着,皮肤也受了伤;浑身冒汗,汗水淋漓,在山坡上艰难吃力地爬行还是拉不上去,伯乐遇见了,就下了自己的车,挽住千里马而对它淌眼泪,并脱下自己的麻布衣服覆盖在千里马身上。千里马于是低下头吐气,抬起头来长鸣,嘶叫声直达云霄。这是它感激伯乐了解并且体贴它啊。
数据结构 Data Structures Prof. Qing WANG 王庆.
圖論的介紹 第二組 徐榮德 鄭又齊 陳俊嘉.
第一章 绪论 Chapter 1 Introduction
实体描述呈现方法的研究 实验评估 2019/5/1.
1.為什麼要辦? 2.開辦好處 3.每月該繳多少錢? 4.國民年金計算公式 5.結論 6.資料來源
第四章 資訊的價值 The Value Information
國民年金 np97006.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
孔融《与曹操论盛孝章书》.
课题1 原子的构成 独 秀 初 中 孙 长 舟.
项目四 角度和锥度的公差与测量 一、圆锥配合的特点 1、间隙或过盈可以调整 2、对中性好,即易保证配合的同轴度要求
複習 2013/12/24 Jehn-Ruey Jiang 江振瑞.
Graph 1 Michael Tsai 2012/4/24 連載: 學生上課睡覺姿勢大全
第4章 材质与贴图 4.1 材质的基本概念 4.2 材质编辑器 4.3 贴图 4.4 贴图坐标 4.5 材质类型 4.6 阴影类型
Presentation transcript:

数据集的抽取式摘要 程龚, 徐丹云

这个数据集里到底有什么?

现有工作:模式提取 A Visual Summary for Linked Open Data Sources (ISWC’14)

现有工作:实体划分 按类型 按属性 按…… Efficiency and Precision Trade-Offs in Graph Summary Algorithms (IDEAS’13)

摘要的种类 非抽取式摘要: summary = a higher-level abstraction (a coarse-level graph structure)

摘要的种类 非抽取式摘要: summary = a higher-level abstraction (a coarse-level graph structure) 抽取式摘要: summary = a salient subset

什么是一个“好的”抽取式摘要? 从用户的角度 信息需求 (Information Needs, IN) 认知需求 (Cognition Needs, CN) CN-1:具有可控的规模 CN-2:提供熟悉易懂的信息 CN-3:提供聚焦连贯的信息

什么是一个“好的”抽取式摘要? 从数据/算法的角度 覆盖度 (Coverage) IN1, IN2 抽取尽可能多种类型的实体、属性 (覆盖) 优先抽取占比高的实体类型、属性 IN1, IN2 (覆盖) 紧致性 (Compactness) 抽取的规模不超过指定大小 CN1 (规模可控) 曝光度 (Visibility) 优先抽取位于数据中心的实体 CN2 (信息熟悉) 连贯性 (Cohesion) 抽取一个或一组相连的实体 CN3 (信息聚焦)

什么是一个“好的”抽取式摘要? 从数据/算法的角度 覆盖度 (Coverage) IN1, IN2 抽取尽可能多种类型的实体、属性 (覆盖) 优先抽取占比高的实体类型、属性 IN1, IN2 (覆盖) 紧致性 (Compactness) 抽取的规模不超过指定大小 CN1 (规模可控) 优化目标 曝光度 (Visibility) 优先抽取位于数据中心的实体 CN2 (信息熟悉) 约束条件 连贯性 (Cohesion) 抽取一个或一组相连的实体 CN3 (信息聚焦)

组合优化问题 Maximum-Weight-and-Coverage Connected Graph (MWCCG) 三元组图 (GT) 曝光度 类的占比 属性的占比 覆盖的类 覆盖的属性 三元组图的导出子图 摘要的规模 三元组图 (GT)

问题的复杂度 α=0: weighted maximum coverage, NP-hard β=0: maximum-weight connected graph, NP-hard (connected k-subgraph)

算法1 三元组图 (GT)

算法1 SOPT ≥ OPT/k Si ≥ OPT/k 三元组图 (GT)

算法2 三元组图 (GT)

算法2 SOPT ≥ OPT/k S1 ≥ OPT/k (max) 三元组图 (GT)

谢谢,欢迎意见建议