Presentation is loading. Please wait.

Presentation is loading. Please wait.

新闻综述报告自动生成研究 路璐 2013年11月19日.

Similar presentations


Presentation on theme: "新闻综述报告自动生成研究 路璐 2013年11月19日."— Presentation transcript:

1 新闻综述报告自动生成研究 路璐 2013年11月19日

2 提纲 新闻服务现状 NewsMiner 自动新闻综述报告 总结与展望

3 新闻服务现状 新闻分析粒度 新闻的组织形式 导航形式 新闻的可视化 词、文档 文档、文档列表 分类导航、关联导航、检索 文本、图形
新闻专题分析 传统的新闻服务有四个特点, 新闻分析的粒度基于词 或 文档 , 通过词的检索、热词排行、文档分类、汇总的形式,对新闻进行组织 导航形式 主要有分类导航 、关联导航(相关新闻的导航与推荐) 、新闻检索 新闻的可视化,主要是通过文本、图文的形式进行新闻描述。或者通过人工汇编辑 新闻专题分析 但是目前的这些新闻分析粒度、组织与可视化都存在着一些不足。

4 问题与挑战 如何更好的描述新闻? 如何帮助用户快速浏览新闻主旨? 新闻通过怎样的组织形式,才更符合用户的阅读和思维过程?
什么样的可视化才能更精确的展示新闻潜在的信息? 目前新闻服务 基于词或文档的分析粒度,不能更好的体现新闻要素的本质,缺乏新闻深层次的语义挖掘。 导航和组织形式单调,用户需要大量精力查找新闻,理解新闻,不符合用户聚焦与发散的思维方式。 可视化缺乏用户的交互,以及新闻中潜在统计信息的可视化描述。

5 NewsMiner www.newsminer.net
它可以提供新闻检索、新闻实体知识关联、新闻简易分析报告生成等功能

6 NewsMiner对新闻的描述 事件 E 话题 T 命名实体 N 关系 R 文档集 D S = {E, T, N, D, R}
新闻的传统描述方式是基于词、文档的。 但是从新闻六要素 5W1H 的角度来说,这种基于词、文档的描述方式不符合新闻的特质。 When ——命名实体(时间) What——事件、话题 Who——命名实体(人名、机构团体) Where——命名实体(地名) Why How——关系 基于新闻的5元表示方式,可以建立起一个基于新闻事件的新闻多层次表示模型: 它由三个层次“事件层”“话题层”“实体层”构成,这些层次内部元素、以及层次之间存在着关联关系; 这种关联关系广义上说还包括知识的关联,将实体、事件关联到知识库,可以更好的阐述新闻背景知识。

7 多层次新闻分析框架 数据采集 数据处理 数据读写 新闻服务 新闻文档、UGC、百科 话题建模 新闻评论对齐 知识库连接 数据库 索引文件
新闻检索 富交互可视化 新闻综述报告 热评对齐 热门发现 基于新闻的多层次表示模型的思想,我们知识工程组构建了一个新闻分析系统NewsMiner. 这是NewsMiner的系统框架,有数据采集层、数据处理层、数据读写层、服务层构成。 其中话题建模与分析 、富交互可视化 、新闻报告生成是我主要的研究工作。

8 新闻的关联分析 话题间的关联 实体间的关联 话题与实体间的关联 新闻的关联有话题间的关联、实体间的关联、话题与实体间的关联三种。
前两种关联关系,可以用余弦距离计算之间相似度,进行度量。 第三种,由于命名实体本质就是词,可以通过LDA聚类结果中,(词关于话题)的概率进行度量。

9 新闻的趋势分析 新闻的趋势指的是,新闻随时间的延续的演化关系。 通常有事件的趋势、话题的趋势等。
趋势的度量可以有多种途径,如相应时间的新闻量、点击量、新闻评论量等多种分析因素。

10 新闻主题句 𝑆𝑐𝑜𝑟𝑒 ℎ𝑤 𝑆 𝑖 = 𝑤∈𝐻∩ 𝑆 𝑖 𝑤𝑒𝑖𝑔ℎ𝑡(𝑊) 𝑤∈𝐻 𝑤𝑒𝑖𝑔ℎ𝑡(𝑊)
𝑆𝑐𝑜𝑟𝑒 ℎ𝑤 𝑆 𝑖 = 𝑤∈𝐻∩ 𝑆 𝑖 𝑤𝑒𝑖𝑔ℎ𝑡(𝑊) 𝑤∈𝐻 𝑤𝑒𝑖𝑔ℎ𝑡(𝑊) 𝑆𝑐𝑜𝑟𝑒 𝑙𝑒𝑛 𝑆 𝑖 = 1 𝑖𝑓 length 𝑆 𝑖 >c 0 others 𝑆𝑐𝑜𝑟𝑒 𝑒𝑛𝑡𝑖𝑡𝑦 𝑆 𝑖 = 𝑁 𝑒𝑛𝑡𝑖𝑡𝑦 ( 𝑆 𝑖 ) 𝑙𝑒𝑛𝑔𝑡ℎ( 𝑆 𝑖 ) 𝑆𝑐𝑜𝑟𝑒 𝑆 𝑖 = 𝑗 𝑤 𝑗 𝑆𝑐𝑜𝑟𝑒 𝑗 ( 𝑆 𝑖 ) 新闻主题句可以凝练一篇新闻 或 新闻话题的主旨思想 它与句子长度、实体分布、高频词分布都有关系。我们认为句子越长,蕴含信息量越大;包含实体越多,越有可能是主题句,包含的话题高频词越多,越有可能是主题句。综合考虑这些因素,提出下面几个公式。

11 新闻话题的自动标注 新闻话题标注的形式: 二元文法: 关键词 短语 句子摘要 名词短语 动词短语
构成文法 建立候选短语集合 最优选择 二元文法: 名词短语 动词短语 通过话题聚类的方式,归纳出一系列拥有共同主旨含义的新闻文档集。 通过对话题进行标注可以更好的反映新闻话题主旨 新闻话题标注有多种形式:关键词、短语、主题句摘要等等。关键词过于简单,难以表达主旨。句子摘要过于繁杂。 短语方式,简洁 易于理解 易于归纳话题主旨。 话题自动标注的方法通常有三个环节,确定构成文法、建立候选短语集、最优选择。 我们选择二元文法作为 短语构成文法。二元的名词短语、动词短语对主旨的表现力更强 更能描述主旨含义。 利用TF/IDF方法,给候选的话题标签进行打分,排序后,选择最优的作为话题标签。

12 建立候选短语集合 话题热词法 标题首句法 新闻主题句法 LDA模型中P(W|Z)确定词元集合 按照文法用词元生成候选短语
构成文法 建立候选短语集合 最优选择 话题热词法 LDA模型中P(W|Z)确定词元集合 按照文法用词元生成候选短语 标题首句法 新闻主题句法 建立候选短语集合,有三种方法,话题热词法、标题首句法、新闻主题句法。 话题热词法,利用话题建模过程中生成的词与话题的概率关系,确定一系列高频词作为词元集合。 按照二元文法对这些词元进行组合 构成候选短语。 新闻标题 或 首句通常是新闻的主旨总结句。 通过计算首句与LDA得出的话题高频词的相似度, S是新闻中的首句中词的集合,T是LDA中高频词集合。 据此排序,选择一系列较优的首句。利用这些首句,构建词元集合。 按照二元文法组织词元,建立候选短语集合

13 选择最优话题标签 利用LDA模型中词在话题上的分布,计算每个候选标签的分数,并排序。
构成文法 建立候选短语集合 最优选择 利用LDA模型中词在话题上的分布,计算每个候选标签的分数,并排序。 𝑆𝑐𝑜𝑟𝑒 𝑤 = 𝑃 𝑤 1 𝑧 𝑖 ∗𝑃 𝑤 2 𝑧 𝑖 ∗ 𝑡𝑓 𝑖 ∗ 𝑖𝑑𝑓 −𝑖 利用TF/IDF方法,给候选的话题标签进行打分,排序后,选择最优的作为话题标签。

14 新闻综述报告 新闻综述报告 传统的写作方法 计算机辅助生成 过程复杂 效率低下 易受作者主观认识影响 效率高 各种图表统计分析 较为客观
一种类似于新闻调查和新闻评论的新闻报告形式。通过新闻调查的资料采集、综合量化分析的方法,结合新闻评论的行文方法,构成关于新闻事件、新闻实体、一段时间的新闻总结性报告。 传统的写作方法 过程复杂 效率低下 易受作者主观认识影响 计算机辅助生成 效率高 各种图表统计分析 较为客观 新闻综述报告是一种类似与新闻调查与新闻评论的报告.通过新闻调查的资料采集、综合量化分析的方法,结合新闻评论的行文方法,构成关于新闻事件、新闻实体、一段时间的新闻总结性报告 传统的写作过程有 选题、搜集素材、辨析观点、安排结构、语言表达等环节。 但是传统的写作方法拥有一些难以避免的确定。 通过计算机辅助生成,可以提高素材搜集、分析观点等环节的效率,并且可以自动生成各种统计图表,不容易掺杂主观影响

15 新闻综述报告 文字描述 图表描述 通常新闻综述报告内容可以分为两种:1 文字性的描述, 如主题句 简介 摘要 总结等内容
2 图表数据 , 用生动的统计图表来论证观点、表明关系、 展示发展趋势等等 这些都离不开大人力的研究和统计 , newsminer 可以大大简化这些过程。 图表描述

16 NewsMiner提供的报告素材 文本内容 统计图表 事件、实体的知识关联 关键词 主题句 话题标签 代表新闻 关联关系图
话题、实体等的分布图 事件、话题等的趋势图 评论分布图、趋势图 事件 描述 When Where Who How Why What 话题 话题描述 话题权重 话题趋势图、趋势对比图 实体 分析 命名实体描述 实体发展趋势、趋势对比图 评论 观点聚类 观点分布(基于位置、事件信息上的分布) 关联 关系 话题间的关联图 命名实体间的关联图 话题与实体间的关系图 从NewsMiner中我们可以获得一系列的文本语义描述、和统计图表内容 文本描述主要有: 统计图表主要有

17 辅助新闻综述报告生成框架 单事件 多事件 人物分析 事件 命名实体 一系列相关事件 一段时间的事件 (年报、月报)
新闻综述报告的选题,按照事件多寡分为单事件和多事件两种。 单事件顾名思义,针对单个事件、或单个事件中的某个新闻实体进行分析。 多事件,针对一系列相关事件,或一段时间的事件结合,可以形成年报、周报、月报等。 本页图所显示的是辅助新闻综述报告成成框架,通过人工选题,NewsMiner 进行新闻的抓取、分析等一系列工作。提供统计图表、新闻语义描述、关联知识描述等服务。按照选题的不同,如果是单事件新闻,按照预定的行文规则,组织新闻语义描述、关联知识、统计图表的构成初步的新闻综述报告。如果是多事件新闻,首先进行多个事件属性的综述,然后再分事件按照单事件处理规则,组织声称初步综述文档。 初步综述文档,经过人工进一步编辑内容,即可形成最终文档。

18 行文规则 文章 结构 报告内容细节 素材来源 标题 关于“XXX”事件的综述报告 XXX代表事件名称 事件简介
“XXX”事件是XX时间,XX地点,XX人,发生的XX事情。 基于百科知识的关联和新闻信息统计。 相关实体简介 事件相关的实体有: X人,是… … X机构组织,是… … 话题列举 “XXX”事件,影响方面很多,产生了很多话题,如话题A、话题B、话题C等等 基于NewsMiner话题分析和话题标签提取。话题A、B、C按其权重排序。 这些话题存在着相互联系,它们的关系图(分布图、演化趋势图)如下; 该话题的关键词有:… … 主题句有:… … 基于NewsMiner的层次关联分析。在此展示话题的关系图、分布图、趋势图。 综述 关于“XXX”事件,广大网民有如下观点:G1、G2、G3 这些观点的分布情况如分布图。 这些观点按地域的分布如分布图。 关于新闻评论,利用NewsMiner进行聚类发现观点G1、G2、G3。并研究观点的分布情况,或基于地点的分布情况。

19 数据来源: 示例 关于新闻人物的新闻综述报告
示例 关于新闻人物的新闻综述报告 数据来源: 关于“四川雅安地震”的3114篇相关新闻,通过聚类获得40个相关话题,如:“房子倒塌”、“发生地震”、“参与救援”、“受到污染”、“恢复通信”等

20 数据来源: 示例 关于新闻人物的新闻综述报告
示例 关于新闻人物的新闻综述报告 数据来源: 关于“潘基文”的新闻事件共1242篇相关新闻文档,有以色列全面进攻哈马斯、 叙利亚化武疑云、 海地发生7.3级地震、 叙利亚局势持续紧张、 科索沃宣布独立、 巴以地区爆发新一轮冲突等新闻事件

21 与类似工作对比 话题提炼 热度趋势 统计图表 主题提取 语言流畅 NewsMiner 自动 全面 自动 一般 微博研究 人工分析 人工统计
话题提炼 热度趋势 统计图表 主题提取 语言流畅 NewsMiner 自动 全面 自动 一般 微博研究 人工分析 人工统计 人工 目前相关研究较少 没有什么评测手段 , 对比武大沈阳老师的微博研究 , 他是针对微博一段时间内的热点事件进行比较,得到如下结论。 他的研究主要依靠人 工的分析 编写等等,人工干预的话就会在统计还有关系挖掘方面 就不如newsminer 了, 但是语言流畅要好于newsminer. Newsminer 在话题观点和新闻实体的挖掘方面要优于微博研究。

22 总结与展望 NewsMiner系统生成详细客观的新闻语义分析、图形图表。
自动生成的新闻综述报告,具备一篇新闻综述报告的基本特征,对新闻话题、统计数据、主题句分析提取等高效、全面和准确。 我的研究工作主要有:基于新闻的五元组描述方式,建立起一种多层次、多关联的富交互可视化浏览方法。 并提出了基于标题、首句自动生成新闻话题标签的方法; 结合研究新闻综述报告写作特点,把计算机技术自动产生深层新闻语义信息、图形图表、知识关联等丰富信息,有机地进行组织。降低了人工写作中搜集、分析、统计、行文的难度和强度。

23 总结与展望 辅助综述报告的语义化完善 基于话题的新闻事件预测 跨语言新闻对比
自动综述报告的生成还存在着很多不足,语言表达还不够流畅,没有引入更多的知识的关联功能。需要进一步的完善。 在研究中我们发现,相似新闻事件存在着大量公共话题,也有各自的私有话题,这些话题的发生发展与湮灭有一定规律可循。newminer模型是依靠新闻话题来进行组织和导航的。设想 每个新闻事件都由最基本的话题组成,只要对新闻事件进行一定量的知识积累,就可以对即将发生 或 刚刚发生的事件进行预测。 比如通过对海地地震、福岛地震等灾难的研究,如果发生突发地质灾害,就可以预测地震后会出现什么类的事件话题“救援、捐款、核泄漏、疏散、经济损失、灾区难童”等,可以就这些将要发生的话题组织应对等。 未来的研究还包括对于某一事件不同国家的媒体报道存在着很大差别,可以对他们

24 谢谢!


Download ppt "新闻综述报告自动生成研究 路璐 2013年11月19日."

Similar presentations


Ads by Google