- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 第十二期 - 文本摘要
引
文本摘要是自然语言处理的一大经典任务,研究的历史比较长。随着目前互联网生产出的文本数据越来越多,文本信息过载问题越来越严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。传统的文本摘要方法,不管是句子级别、单文档还是多文档摘要,都严重依赖特征工程,随着深度学习的流行尤其是 seq2seq+attention 模型在机器翻译领域中的突破,文本摘要任务也迎来了一种全新的思路。本期 PaperWeekly 将会分享 4 篇在这方面做得非常出色的 paper:
1、A Neural Attention Model for Abstractive Sentence Summarization, 2015
2、Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond, 2016
3、Neural Summarization by Extracting Sentences and Words, 2016
4、AttSum: Joint Learning of Focusing and Summarization with Neural Attention, 2016
1、A Neural Attention Model for Abstractive Sentence Summarization作者
Rush, A. M., Chopra, S., & Weston, J.
单位
Facebook AI Research / Harvard SEAS
关键词
Neural Attention, Abstractive Sentence Summarization
文章来源
EMNLP 2015
问题
这篇来自 Facebook 的 paper 的主题是基于 attention based NN 的生成式句子摘要/压缩。
模型
该工作使用提出了一种 encoder-decoder 框架下的句子摘要模型。
作者在文章中介绍了三种不同的 encoding 方法,分别为:
- Bag-of-Words Encoder。词袋模型即将输入句子中词的词向量进行平均。
- CNN encoder
- Attention-Based Encoder。该 encoder 使用 CNN 对已生成的最近 c(c 为窗口大小)个词进行编码,再用编码出来的 context 向量对输入句子做 attention,从而实现对输入的加权平均。
模型中的 decoder 为修改过的 NNLM,具体地:
式中 y_c 为已生成的词中大小为 c 的窗口,与 encoder 中的 Attention-Based Encoder 同义。
与目前主流的基于 seq2seq 的模型不同,该模型中 encoder 并未采用流行的 RNN。
数据
该文章使用了 English Gigaword 作为语料,选择新闻中的首句作为输入,新闻标题作为输出,以此构建平行语料。具体的数据构建方法参见文章。此外,该文章还使用了 DUC2004 作为测试集。
简评
在调研范围内,该文章是使用 attention 机制进行摘要的第一篇。且作者提出了利用 Gigaword 构建大量平行句对的方法,使得利用神经网络训练成为可能,之后多篇工作都使用了该方法构建训练数据。
2、Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond作者
Nallapati, Ramesh, et al.
单位
IBM Watson
关键词
seq2seq, Summarization
文章来源
In CoNLL 2016
问题
该工作主要研究了基于 seq2seq 模型的生成式文本摘要。
该文章不仅包括了句子压缩方面的工作,还给出了一个新的文档到多句子的数据集。
模型
该文章使用了常用的 seq2seq 作为基本模型,并在其基础上添加了很多 feature:
- Large Vocabulary Trick。
参见 Sébastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2014. On using very large target vocabulary for neural machine translation. CoRR, abs/1412.2007.
- 添加 feature。例如 POS tag, TF、IDF, NER tag 等。这些 feature 会被 embed 之后与输入句子的词向量拼接起来作为 encoder 的输入。
- pointing / copy 机制。使用一个 gate 来判断是否要从输入句子中拷贝词或者使用 decoder 生成词。参见 ACL 2016 的两篇相关 paper。
- Hierarchical Attention。这是用于文章摘要中多句子的 attention,思路借鉴了 Jiwei Li 的一篇 auto encoder 的工作。大致思路为使用句子级别的 weight 对句子中的词进行 re-scale。
数据
- English Gigaword
- DUC 2004
- 提出了 CNN/Daily Mail Corpus
简评
该工作为在第一篇文章基础上的改进工作,做了大量的实验,非常扎实。文章提出的 feature-rich encoder 对其他工作也有参考意义,即将传统方法中的特征显式地作为神经网络的输入,提高了效果。
3、Neural Summarization by Extracting Sentences and Words作者
Cheng, Jianpeng, and Mirella Lapata.
单位
University of Edinburgh
关键词
Extractive Summarization, Neural Attention
文章来源
ACL 2016
问题
使用神经网络进行抽取式摘要,分别为句子抽取和单词抽取。
模型
句子抽取
由于该工作为文档的摘要,故其使用了两层 encoder,分别为:
- 词级别的 encoder,基于 CNN。即对句子做卷积再做 max pooling 从而获得句子的表示。
- 句子级别的 encoder,基于 RNN。将句子的表示作为输入,即获得文档的表示。
由于是抽取式摘要,其使用了一个 RNN decoder,但其作用并非生成,而是用作 sequence labeling,对输入的句子判断是否进行抽取,类似于 pointer network。
词的抽取
对于词的抽取,该模型同样适用了 hierarchical attention。与句子抽取不同,词的抽取更类似于生成,只是将输入文档的单词作为 decoder 的词表。
数据
从 DailyMail news 中根据其 highlight 构建抽取式摘要数据集。
简评
该工作的特别之处在于对 attention 机制的使用。该 paper 之前的许多工作中的 attention 机制都与 Bahdanau 的工作相同,即用 attention 对某些向量求 weighted sum。而该工作则直接使用 attention 的分数进行对文档中句子进行选择,实际上与 pointer networks 意思相近。
4、AttSum: Joint Learning of Focusing and Summarization with Neural Attention作者
Cao, Ziqiang, et al.
单位
The Hong Kong Polytechnic University, Peking University, Microsoft Research
关键词
Query-focused Summarization
文章来源
COLING 2016
问题
Query-focused 多文档抽取式摘要
模型
由于该任务为针对某个 query 抽取出可以回答该 query 的摘要,模型使用了 attention 机制对句子进行加权,加权的依据为文档句子对 query 的相关性(基于 attention),从而对句子 ranking,进而抽取出摘要。具体地:
- 使用 CNN 对句子进行 encoding
- 利用 query,对句子表示进行 weighted sum pooling。
- 使用 cosine similarity 对句子排序。
数据
DUC 2005 ∼ 2007 query-focused summarization benchmark datasets
简评
该文章的亮点之处在于使用 attention 机制对文档中句子进行 weighted-sum pooling,以此完成 query-focused 的句子表示和 ranking。
总结
本次主要介绍了四篇文本摘要的工作,前两篇为生成式(abstractive)摘要,后两篇为抽取式(extractive)摘要。对于生成式摘要,目前主要是基于 encoder-decoder 模式的生成,但这种方法受限于语料的获得,而 Rush 等提出了利用 English Gigaword(即新闻数据)构建平行句对语料库的方法。IBM 在 Facebook 工作启发下,直接使用了 seq2seq with attention 模型进行摘要的生成,获得了更好的效果。对于抽取式摘要,神经网络模型的作用多用来学习句子表示进而用于后续的句子 ranking。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论