北京大学 Peking University 基于深度学习的数据到文本生成 罗福莉 2018/6/6.

Slides:



Advertisements
Similar presentations
FREE-TYPE POEM GENERATION QIXIN WANG, TIANYI LUO, DONG WANG, CHAO XING AAAI & IJCAI 2016.
Advertisements

中三選科— 文科.
Unsupervised feature learning: autoencoders
聚酯纤维——聚酯合成.
Mailto: 1 企業創新與管理 中央大學.資訊管理系 范錚強 mailto: Rev.
西南财经大学实验经济学短期课程“实验的设计和具体操作”专题讲座
比赛之旅 自动化112 张涛.
自衛消防編組任務職責 講 義 This template can be used as a starter file for presenting training materials in a group setting. Sections Right-click on a slide to add.
数据库技术及应用 华中科技大学管理学院 课程网址:
在PHP和MYSQL中实现完美的中文显示
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
深層學習 暑期訓練 (2017).
Visualizing and Understanding Neural Machine Translation
Some Effective Techniques for Naive Bayes Text Classification
Applications of Digital Signal Processing
優質教育基金研究計劃研討會: 經驗分享 - 透過Web 2.0推動高小程度 探究式專題研習的協作教學模式
趙義隆 教授 台大國際企業學研究所 趙義隆 教授 台大國際企業學研究所 2003 MBA How-to #3.
資料庫結構與組織.
机器翻译前沿动态 张家俊 中国科学院自动化研究所
陳國泰 博士 崑山科技大學 電腦與通訊系 副教授 兼 圖書資訊館 副館長
彰化縣政府補助辦理網頁設計資料庫應用班 資料庫簡介 建國技術學院資管系 饒瑞佶.
單元3:軟體設計 3-1實體關係圖 Ch 08 System models.
An Introduction to Computer Science (計算機概論)
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
張新仁 教授兼學生事務長 國立高雄師範大學教育系
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
971研究方法課程第九次上課 認識、理解及選擇一項適當的研究策略
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
Online job scheduling in Distributed Machine Learning Clusters
陳明璋 一個引導注意力為導向的數位內容設計及展演環境 Activate Mind Attention AMA
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
行銷與流通管理系 招生策略與管考簡報 簡 報 人:李國良 簡報時間:106 年 3 月 21 日 歡迎委員蒞臨僑光科技大學會計資訊係指導
产品造型与设计II 向辉 山东大学软件学院 工程硕士-2003年秋季.
基于深度学习模型的高效语音识别 推理结构及搜索算法研究 (解码器研究方向) Inference Architecture & Search Optimization for Deep Learning based ASR 姓名:陈哲怀 导师:俞 凯.
Flexible and Creative Chinese Poetry Generation Using Neural Memory
sequence-to-sequence
—— 周小多.
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
Answering aggregation question over knowledge base
沙勇忠 Sha Yongzhong 兰州大学图书馆 Library of Lanzhou University
Swinburne University of Technology 2018年4月8日(周日) 下午16:00
Research 裴澍炜 Shuwei Pei Tel:
Vector Quantization(VQ)
Representation Learning of Knowledge Graphs with Hierarchical Types
從 ER 到 Logical Schema ──兼談Schema Integration
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
Liang Zhang, Jianmin Wang
都;和 “both, all”; “and” 几 “how many” 做什么的 “do what (occupation)”
Statistics Chapter 1 Introduction Instructor: Yanzhi Wang.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
分工 赵屹东: 网站构架与各元素的修改、嵌入与布局,网站页面的制作,组内任务分配和安排,论文中网站结构部分与各部分的整合
唐常杰 四川大学计算机学院 计算机科学技术系
Introduction of this course
More About Auto-encoder
Speaker : YI-CHENG HUNG
Operating System Software School of SCU
高级大数据人才培养丛书之一,大数据挖掘技术与应用
2014Fall 資訊模式 資料庫和資料模型 國立中央大學 資訊管理系 范錚強 updated 中央大學。范錚強.
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
Anchor-free Detection专题
Introduction to Computer Security and Cryptography
毕业论文 答辩模版 The Graduation Thesis Plea of XXX university 答辩人:XXX
Term Project : Requirement
Principle and application of optical information technology
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Some discussions on Entity Identification
Presentation transcript:

北京大学 Peking University 基于深度学习的数据到文本生成 罗福莉 2018/6/6

Conclusion & Future Work 目录 Introduction Neural-based Models Conclusion & Future Work WikiBio通过抽取维基百科的infobox和正文第一段话,自动化地构建了一个大型平行语料库,包含了超过70万条平行数据和超过40万的词表。

Introduction

Non-linguistic or Structured Data 数据-文本生成 Data RotoWire和SBNation体育赛事数据 (Wiseman et al.., 2017) (较难) WikiBio维基人物传记数据(Lebret et al.., 2016) E2E餐馆描述数据 (Dušek et al.., 2016 ) Recipe菜谱数据 (Kiddon et al.., 2016) WeatherGov天气预报数据 (Liang et al.., 2009) RoboCup机器人足球竞赛数据集 (Chen and Mooney, 2008) ……….. Non-linguistic or Structured Data Text 按照时间顺序列出了下面的6个数据,他们分别来自不同的领域,并且数据的表现形式也大不相同,比如最近的有,,还有,最后两个是比较传统的数据集。总的来说,data-to-text的任务就是将这些,,Data 生成对应的文本描述

数据集对比 ROBOCUP

content selection: what to say Data-to-Text : Two sub-problems content selection: what to say the selection of an appropriate subset of the input data to discuss surface realization: how to say it the surface realization of a generation 内容选择+文本实现 传统的方法会分别两步实现两个系统,但是神经网络并不显示的分两步走,会弱化这两者的区别 Neural generation systems blur this distinction

Neural-based Models

Seq2Seq 基本框架 不同结构的数据会有不同的encoder和decoder框架 encoder decoder attention 既然是一个生成任务,那么还是它的基本框架仍然是seq2seq框架,在encoders端建模data的表示,在deocder端生成text。但是往往不同的数据集的数据表现形式不一致,因为就有encoder和decoder框架。下面我以现在主流的几个数据集为例,抛砖引玉介绍近期在这些数据集上的paper

数据集:ROBOCUP ROBOCUP:关于机器人足球竞赛的数据集,一个type,然后包含多个key-value的piars。比如对于当前的这4个records,生成这个样子一段句子

WEATHERGOV 传统的数据集如WEATHERGOV和ROBOCUP的数据量较小,最大仅为几万条数据。 H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv:1509.00838, 2015.

Models 也就是根据所有的data records和前t-1个词来估计第t个词,我们把record的representation经过双向LSTM, Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv:1509.00838, 2015.

Models r_i is concatenated by multiple “attribute (field) vectors” 1) record type (e.g., “rain- Chance”) with a one-hot vector, 2) record time slot (e.g., “17-06”) with a one-hot vector, 3) record mode (e.g., “SSE”) with a one-hot vector, 4) record value (e.g., “20”) with a 0-1 vector. 共享一些相邻数字的信息 Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv:1509.00838, 2015.

Models Pre-selector Standard aligner Refiner Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv:1509.00838, 2015.

数据集:E2E餐馆描述 Dataset Train Dev Test 42,061 4672 630 面向餐馆描述领域的E2E数据集,每一条数据都对应多个参考文本(8.1 references on average) Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv:1606.05491, 2016.

E2E餐馆描述 Model1 餐馆信息按照顺序送入encoder,例如对于输入的餐馆信息name=X-name, eattype=restaurant,送入encoder的序列是inform、name、X-name、inform、eattype、restaurant。Encoder部分采用LSTM,用最后一步的输出初始化Decoder部分。Decoder部分使用LSTM并融入Attention机制,生成对于餐馆信息的介绍。 Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv:1606.05491, 2016.

E2E餐馆描述 Model1 为了确保生成的text的信息都在inform里,对于beam中生成的每一个候选text,会采取一个reranker模型来惩罚超出inform的范围的text。 reranker是在train dataset上单独训练的(不是和seq2seq一起),然后最小化海明距离,但是在test的时候,要在最后的beam search的得分基础上减去海明距离作为惩罚 Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv:1606.05491, 2016.

E2E餐馆描述 Model2 Copy mechanism Shuang Chen. A General Model for Neural Text Generation from Structured Data

数据集:WikiBio Dataset Train Dev Test 582,559 72,831 Frederick Parker-Rhodes (21 March 1914 – 21 November 1987) was an English linguist, plant pathologist, computer scientist, mathematician, mystic, and mycologist. WikiBio通过抽取维基百科的infobox和正文第一段话,自动化地构建了一个大型平行语料库,包含了超过70万条平行数据和超过40万的词表。 Lebret R, Grangier D, Auli M. Neural text generation from structured data with application to the biography domain[J]. arXiv preprint arXiv:1603.07771, 2016.

WikiBio Representation 由于表格与非结构化文本相比是有结构信息的,比如表格中有域名(field name)、域值(field value)的概念。为了将域名的信息融入到表格的表示当中,目前有多种做法,如 Mei等人的工作[8]将表格中的记录表示成固定长度的one-hot向量,并利用循环神经网络对输入表格进行编码。Liu 的论文借鉴了Facebook AI论文中表格表示的思想,这个表示方法如图: Table: The wiki infobox of George Mikell (left) and the table of its field representation (right). Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:1711.09724.

WikiBio - Model 具体在模型方面,这个模型使用具有域门机制(field-gating)的编码器来使域名信息可以直接影响LSTM的cell state。同时,他们还引入了一种对偶注意力机制来融合表格中的内容信息和域信息。 Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:1711.09724.

Field-gating Table Encoder Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:1711.09724.

Decoder with Dual Attention Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:1711.09724.

数据集:RotoWire体育赛事 Dataset Train Dev Test 3398 727 728 record type record entity record value RotoWire和SBNation数据集,前者收集的是专业人士撰写的NBA赛事报道,而后者收集的是粉丝撰写的赛事简要。该数据集中的文本平均长度在337以上,显著长于上述数据集。 Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[J]. arXiv preprint arXiv:1707.08052, 2017

Reconstruction Losses RotoWire体育赛事 - Model Base model record representation r.t (e.g., POINTS) r.e (e.g., RUSSELL WESTBROOK) r.m (e.g., 50) Copy mechanism Reconstruction Losses MLP the latter conditions on whether there is a copy or not, and so in p_copy the source records compete only with each other. Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[J]. arXiv preprint arXiv:1707.08052, 2017

Conclusion & Future Work

总结与展望 Conclusion 基于深度学习的方法在评测指标上虽然超过基于模版的方法,但是模版更可控 不同数据的结构不同,有些结构较强,有些结构较弱,因此需要在encoder端设计不同的 record representation 方式 attention的加入是为了隐式做content selection,但是总体来说content selection 还是做的不好 copy mechanism 和 reconstruction更能进一步提高效果 Future Work structure-aware model:更合理的record strcuturere presentation neural+template

感谢聆听!