Download presentation
Presentation is loading. Please wait.
1
北京大学 Peking University 基于深度学习的数据到文本生成 罗福莉 2018/6/6
2
Conclusion & Future Work
目录 Introduction Neural-based Models Conclusion & Future Work WikiBio通过抽取维基百科的infobox和正文第一段话,自动化地构建了一个大型平行语料库,包含了超过70万条平行数据和超过40万的词表。
3
Introduction
4
Non-linguistic or Structured Data
数据-文本生成 Data RotoWire和SBNation体育赛事数据 (Wiseman et al.., 2017) (较难) WikiBio维基人物传记数据(Lebret et al.., 2016) E2E餐馆描述数据 (Dušek et al.., 2016 ) Recipe菜谱数据 (Kiddon et al.., 2016) WeatherGov天气预报数据 (Liang et al.., 2009) RoboCup机器人足球竞赛数据集 (Chen and Mooney, 2008) ……….. Non-linguistic or Structured Data Text 按照时间顺序列出了下面的6个数据,他们分别来自不同的领域,并且数据的表现形式也大不相同,比如最近的有,,还有,最后两个是比较传统的数据集。总的来说,data-to-text的任务就是将这些,,Data 生成对应的文本描述
5
数据集对比 ROBOCUP
6
content selection: what to say
Data-to-Text : Two sub-problems content selection: what to say the selection of an appropriate subset of the input data to discuss surface realization: how to say it the surface realization of a generation 内容选择+文本实现 传统的方法会分别两步实现两个系统,但是神经网络并不显示的分两步走,会弱化这两者的区别 Neural generation systems blur this distinction
7
Neural-based Models
8
Seq2Seq 基本框架 不同结构的数据会有不同的encoder和decoder框架 encoder decoder attention
既然是一个生成任务,那么还是它的基本框架仍然是seq2seq框架,在encoders端建模data的表示,在deocder端生成text。但是往往不同的数据集的数据表现形式不一致,因为就有encoder和decoder框架。下面我以现在主流的几个数据集为例,抛砖引玉介绍近期在这些数据集上的paper
9
数据集:ROBOCUP ROBOCUP:关于机器人足球竞赛的数据集,一个type,然后包含多个key-value的piars。比如对于当前的这4个records,生成这个样子一段句子
10
WEATHERGOV 传统的数据集如WEATHERGOV和ROBOCUP的数据量较小,最大仅为几万条数据。 H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv: , 2015.
11
Models 也就是根据所有的data records和前t-1个词来估计第t个词,我们把record的representation经过双向LSTM, Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv: , 2015.
12
Models r_i is concatenated by multiple “attribute (field) vectors”
1) record type (e.g., “rain- Chance”) with a one-hot vector, 2) record time slot (e.g., “17-06”) with a one-hot vector, 3) record mode (e.g., “SSE”) with a one-hot vector, 4) record value (e.g., “20”) with a 0-1 vector. 共享一些相邻数字的信息 Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv: , 2015.
13
Models Pre-selector Standard aligner Refiner
Mei H, Bansal M, Walter M R. What to talk about and how? selective generation using lstms with coarse-to-fine alignment[J]. arXiv preprint arXiv: , 2015.
14
数据集:E2E餐馆描述 Dataset Train Dev Test 42,061 4672 630
面向餐馆描述领域的E2E数据集,每一条数据都对应多个参考文本(8.1 references on average) Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv: , 2016.
15
E2E餐馆描述 Model1 餐馆信息按照顺序送入encoder,例如对于输入的餐馆信息name=X-name, eattype=restaurant,送入encoder的序列是inform、name、X-name、inform、eattype、restaurant。Encoder部分采用LSTM,用最后一步的输出初始化Decoder部分。Decoder部分使用LSTM并融入Attention机制,生成对于餐馆信息的介绍。 Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv: , 2016.
16
E2E餐馆描述 Model1 为了确保生成的text的信息都在inform里,对于beam中生成的每一个候选text,会采取一个reranker模型来惩罚超出inform的范围的text。 reranker是在train dataset上单独训练的(不是和seq2seq一起),然后最小化海明距离,但是在test的时候,要在最后的beam search的得分基础上减去海明距离作为惩罚 Dušek O, Jurčíček F. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings[J]. arXiv preprint arXiv: , 2016.
17
E2E餐馆描述 Model2 Copy mechanism
Shuang Chen. A General Model for Neural Text Generation from Structured Data
18
数据集:WikiBio Dataset Train Dev Test 582,559 72,831 Frederick Parker-Rhodes (21 March 1914 – 21 November 1987) was an English linguist, plant pathologist, computer scientist, mathematician, mystic, and mycologist. WikiBio通过抽取维基百科的infobox和正文第一段话,自动化地构建了一个大型平行语料库,包含了超过70万条平行数据和超过40万的词表。 Lebret R, Grangier D, Auli M. Neural text generation from structured data with application to the biography domain[J]. arXiv preprint arXiv: , 2016.
19
WikiBio Representation
由于表格与非结构化文本相比是有结构信息的,比如表格中有域名(field name)、域值(field value)的概念。为了将域名的信息融入到表格的表示当中,目前有多种做法,如 Mei等人的工作[8]将表格中的记录表示成固定长度的one-hot向量,并利用循环神经网络对输入表格进行编码。Liu 的论文借鉴了Facebook AI论文中表格表示的思想,这个表示方法如图: Table: The wiki infobox of George Mikell (left) and the table of its field representation (right). Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:
20
WikiBio - Model 具体在模型方面,这个模型使用具有域门机制(field-gating)的编码器来使域名信息可以直接影响LSTM的cell state。同时,他们还引入了一种对偶注意力机制来融合表格中的内容信息和域信息。 Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:
21
Field-gating Table Encoder
Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:
22
Decoder with Dual Attention
Liu, T., Wang, K., Sha, L., Chang, B., & Sui, Z. (2017). Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv preprint arXiv:
23
数据集:RotoWire体育赛事 Dataset Train Dev Test 3398 727 728 record type
record entity record value RotoWire和SBNation数据集,前者收集的是专业人士撰写的NBA赛事报道,而后者收集的是粉丝撰写的赛事简要。该数据集中的文本平均长度在337以上,显著长于上述数据集。 Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[J]. arXiv preprint arXiv: , 2017
24
Reconstruction Losses
RotoWire体育赛事 - Model Base model record representation r.t (e.g., POINTS) r.e (e.g., RUSSELL WESTBROOK) r.m (e.g., 50) Copy mechanism Reconstruction Losses MLP the latter conditions on whether there is a copy or not, and so in p_copy the source records compete only with each other. Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[J]. arXiv preprint arXiv: , 2017
25
Conclusion & Future Work
26
总结与展望 Conclusion 基于深度学习的方法在评测指标上虽然超过基于模版的方法,但是模版更可控 不同数据的结构不同,有些结构较强,有些结构较弱,因此需要在encoder端设计不同的 record representation 方式 attention的加入是为了隐式做content selection,但是总体来说content selection 还是做的不好 copy mechanism 和 reconstruction更能进一步提高效果 Future Work structure-aware model:更合理的record strcuturere presentation neural+template
27
感谢聆听!
Similar presentations