文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

PaperWeekly 第十六期 - ICLR 2017 精选

发布于 2025-01-21 00:48:33 字数 10874 浏览 0 评论 0 收藏 0

引言

本期 PaperWeekly 将带着大家来看一下 ICLR 2017 的六篇 paper，其中包括当下非常火热的 GAN 在 NLP 中的应用，开放域聊天机器人如何生成更长更丰富的回答，如何用强化学习来构建树结构的神经网络和层次化的记忆网络等内容。六篇 paper 分别是：

1、A SELF-ATTENTIVE SENTENCE EMBEDDING

2、Adversarial Training Methods for Semi-Supervised Text Classification

3、GENERATING LONG AND DIVERSE RESPONSES WITH NEURAL CONVERSATION MODELS

4、Hierarchical Memory Networks

5、Mode Regularized Generative Adversarial Networks

6、Learning to compose words into sentences with reinforcement learning

A SELF-ATTENTIVE SENTENCE EMBEDDING作者

Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou & Yoshua Bengio

单位

IBM Watson

Universit´e de Montr´eal

关键词

self-attention, sentence embedding, author profiling, sentiment classification, textual entailment

文章来源

ICLR 2017

问题

本文提出一种在没有额外输入的情况下如何利用 attention 来提高模型表现的句子表示方法。

模型

本文提出的模型结构分为两部分，

1、BLSTM

这部分采用双向 LSTM 对输入的文本进行处理，最后得到 BLSTM 的所有隐层状态 H。

2、Self-attention mechanism

同 attention 机制类似，我们需要计算一个权重向量 a，然后通过对隐层状态 H 加权求和得到句子的表示向量。这个过程如下公式所示：

但是实际任务中，我们通常可能会对一个句子语义的多个方面感兴趣，因此我们可以通过下面的公式，获得多个权重向量组成的矩阵 A。

然后每一个权重向量 a 都可以得到一个句子表示向量 v，所有句子表示向量组合在一起就可以获得句子表示矩阵 M。

本文的模型在 author profiling, sentiment classification 和 textual entailment 三个任务上进行验证，都取得了较好的效果。

资源

1、Yelp

2、 SNLI

相关工作

1、A large annotated corpus for learning natural language inference

简评

本文提出的 self-attention 方法用一个 matrix 表示一个句子，并且 matrix 中的每一个 vector 都是句子语义某一方面的表示，增强了 sentence embedding 的可解释性。

Adversarial Training Methods for Semi-Supervised Text Classification作者

Takeru Miyato, Andrew M. Dai, Ian Goodfellow

单位

Google Brain, Kyoto University 和 OpenAI

关键词

Adversarial training, text classification, semi-supervised learning

文章来源

ICLR 2017

问题

Adversarial training 和 virtual adversarial training 都需要对输入的数字形式做小的 perturbation，不适用于高维稀疏输入，比如 one-hot word representations。文章扩展图像领域流行的这两种方法到文本领域，对 word embedding 进行 perturbation 来作为 LSTM 的输入，取代原本的输入向量。可以把这两种方法看做是正则化的方法，为输入加入噪声，可以用来实现 semi-supervised 的任务。

模型

以 adversarial training 为例，文章对 word embeddings 进行 adversarial perturbation，而不是直接应用在输入上。假设 normalized 之后的输入序列为 s，给定 s，y 的条件概率为 p(y|s;theta)，其中 theta 为模型参数，则 s 上的 adversarial perturbation r_adv 为：

应用在 LSTM 上，如下图(b) 所示。定义其 adversarial loss 如下：

其中 N 为 labeled 的例子的数目。通过随机梯度下降来进行 training。

文章也提供了 virtual adversarial training 的方法。

资源

1、

2、

3、

相关工作

主要列三篇 work：

1、2015 年 NIPS, SA-LSTM。Semi-supervised sequence learning

2、2015 年 NIPS，One-hot CNN。Semi-supervised convolutional neural networks for text categorization via region

embedding

3、2016 年 ICML，One-hot bi-LSTM。Supervised and semi-supervised text categorization using LSTM for region

embeddings

简评

作者将图像领域的 adversarial training 应用在了文本领域，改善了 word embedding。传统的 word embedding 被语法结构影响，即使两个完全相反的词（比如”good”和”bad”）在表示形式上也是相近的，没有表示出词本身的意思。Adversarial training 使得有相近语法结构但是不同意义的词能够被分开，可以用来做情感分类和 sequence model 等。

GENERATING LONG AND DIVERSE RESPONSES WITH NEURAL CONVERSATION MODELS作者

Louis Shao, Stephan Gouws, Denny Britz, Anna Goldie, Brian Strope, Ray Kurzweil

单位

Google Research, Google Brain

关键词

Long and Diverse Responses

文章来源

ICLR 2017

问题

开放域聊天机器人如何生成更长且较为丰富的回答？

模型

本文模型是基于经典的 seq2seq+attention 框架，在其基础上进行了若干修改，得到了满意的效果。不同于之前模型的地方有两点：

1、encoder 不仅仅包括整个 source，还包括一部分 target，这样 attention 不仅仅考虑了 source，而且考虑了部分 target。

经典的 seq2seq+attention 在 decoding 部分会将 source 中的每个 token 都考虑到 attention 中来，之前有一种做法是将整个 target 部分也加入到 attention 中，效果上虽然有一定的提升，但随着数据规模地增加，内存代价太大。本文正是针对这一个问题，提出了所谓的“glimpse”模型，如上图所示，在 encoder 部分加入了 target 的前几个 token，相当于是上面两种方案的一种折中。

2、提出了一种基于 sampling 的 beam search decoding 方案。

经典的 beam search 在 decoding 部分，是基于 MAP（最大后验概率）进行贪婪解码的，这种方案生成的 responses 具有简短、无信息量以及高频的特点，通俗地讲会生成很多的类似“呵呵”的话，没有太多营养和价值。(Jiwei Li,2015) 在解决这个问题时，在 decoding 部分通过 MMI（互信息）对 N-best 结果进行重排序，这种方法对于生成短文本效果显著，但对于生成长文本效果不佳。因为，基于 MAP 的 beam search 天然存在这样的问题，N-best 和重排序都解决不了根本性的问题。针对这一问题，本文提出了一种基于 sampling 的 beam search 解码方案，sampling 即在每一步解码时都 sample 出 D 个 token 作为候选，搜索完毕或达到预设的长度之后，生成 B 个候选 responses，然后进行重排序。

本文的另外一大亮点是用了大量的对话数据，用了很大规模参数的模型进行了实验。实验评价标准，在自动评价这部分，设计了一个 N 选 1 的实验，给定一个输入，将正确输出和错误输出混在一起，模型需要从中选择正确的输出，用选择准确率来作为自动评价指标。本文没有用到经典的 BLEU 指标，因为这个指标确实不适合评价对话的生成质量。为了更有说服力，本文用人工对结果进行评价。

资源

本文用到的对话数据：

1、

2、

3、

4、本文作者从 Web 抽取的对话数据（待公开）

相关工作

用 seq2seq 方法研究生成对话的质量（包括长度、多样性）的工作并不多，具有代表性的有下面两个工作：

1、Wu,2016 提出了用 length-normalization 的方案来生成更长的对话

2、Jiwei Li,2015 提出了在解码阶段用 MMI（互信息）对 N-best 结果进行重排序，旨在获得信息量更大的对话。

简评

本文模型部分并没有太多的创新，因为是工业部门的 paper，所以更多的是考虑实用性，即能否在大规模数据集上应用该模型，集中体现在 glimpse 模型上。为了生成更加长、更加多样性的对话，在原有 beam search + 重排序的基础上，引入了 sampling 机制，给生成过程增加了更多的可能性，也是工程上的 trick。对话效果的评价是一件很难的事情，人类希望 bot 可以生成类人的对话，回复的长度可以定量描述，但多样性、生动性、拟人化等等都难以定量描述，所以在探索生成对话的这个方向上还有很长的路要走。

Hierarchical Memory Networks作者

Sarath Chandar, Sungjin Ahn, Hugo Larochelle, Pascal Vincent, Gerald Tesauro, Yoshua Bengio

单位

1、Université de Montréal, Canada.

2、Twitter Cortex, USA.

3、IBM Watson Research Center, USA.

4、CIFAR, Canada.

关键词

Hierarchical Memory Networks，Maximum Inner Product Search (MIPS)

文章来源

ICLR 2017

问题

记忆网络主要包括 hard attention 和 soft attenion 两种，然而 hard 不能用于反向传播算法进行端到端训练，所以只能使用强化学习的方法进行训练；soft 所涉及的计算参数又很大，只适合于少量 Memory。本文提出 Hierarchical Memory Networks(HMN) 模型，算是 soft 和 hard 的一个混合模型，计算量减少且训练更加容易，实验结果也很好。

模型

soft attention 是对所有的 memory 都要进行 attention 的计算，对全集计算使计算量很大。HMN 利用层次化结构使得 attention 的集合缩小，利用 MaximumInner Product Search(MIPS) 的方法从全集中获得一个最优子集，在子集上面去做 attention 就大大降低计算量。这样的方式又和 hard attention 预测关注点的方法有些类似，将注意力放在最相关的那部分，这个的做法也更接近于人的注意力思维。文章的核心部分在于如何获取与 query 最相近的子集。

主实验主要包括两个:

1、Exact K-MIPS：计算复杂度依然和 soft attention 差不多。

2、Approximate K-MIPS：利用 Maximum Cosine Similarity Search(MCSS) 的方法代替 MIPS 的方法，牺牲一些精确度，降低复杂度和加快训练速度。

MIPS 有三种方法，分别是基于 hash,基于 tree,基于 clustering，基于上述三种方法文中又做了几组组对比实验，最后实验结果显示基于 clustering 的效果是最好的。

文章得到的实验结果如下：

资源 1、 (使用的是 Large-scale simple question answering with memory networks 文章中的数据集)

2、

相关工作

1、arXiv 2014, soft attention,《Neural turing machines》

2、CoRR 2015, hard attention,《Reinforcement learning neural turing machine》

3、ICLR 2015, memory network,《Memory networks》

4、arXiv 2015,《End-to-end memory networks》,引入半监督记忆网络可以自学所需要的 facts。

5、CoRR 2016, DMN, 《Dynamic memory networks for visual and textual question

answering》,增加了一个 episodic memory 使得可以动态更新 memory 里面的内容。

简评

文章的创新主要在于修改了两个模块：Memory 和 Reader。

1、将 memory 的结构从 a flat of array 变成了 hierarchical memory structure。将 memory 分成若干 groups,这些 groups 又可以在进行更高级别的组合。

2、reader 是从 MIPS 选出的子集中使用 soft attention。MIPS 从 memory 中选出一

个 group 子集作为最相关的子集。

Mode Regularized Generative Adversarial Networks作者

Tong Che; Yanran Li

单位

Montreal Institute for Learning Algorithms;

Department of Computing, The Hong Kong Polytechnic University

关键词

GAN, Regularizers

文章来源

ICLR 2017

问题

本文针对的问题是：1、GAN 的训练过程很不稳定 2、GAN 生成的样本局限于训练样本中的大 model 上，不能平衡数据的分布（missing model problem）。

两个问题互相影响，导致训练结果不好。

模型

针对上面的问题，作者提出了两种 regularizers 去控制 GAN 的训练过程。

第一个 regularizer 也被作者称为 Regularized-GAN。作者认为可以从 generator 入手，给 generator 增加 regularizer，使得其具有更好的 gradient ，这样 G 和 D 都能稳定训练。

具体的方法是增加一个 encoder E(x) : X → Z.即把原先的 noise vector z 改为 z = encoder(X) ，即然后再 G(encoder(X))。如下图：

这样做有两个好处。第一，原始的模型很容易出现梯度消失的情况，因为 discriminator D 特别容易区分真实数据和生成数据导致 generator 就得不到 D 的梯度。作者的模型多了一个 reconstruction 的部分，这样生成出来数据不再那样容易被 D 识别出来。所以 D 和 G 就都能一直有 gradient 去训练，从而提高稳定性。第二，对于 x ，G(E(x)) 会尽量去生成 x 原本所属的类，从而一定程度解决了 missing model problem。

第二个 regularizer 基于第一个 regularizer 旨在改进训练的方法，也被作者称为 manifold-diffusion GAN。分为两步，第一步 manifold step 训练 discriminator D1 ，目的是减少 G(Enc(X)) 和 X 的的差别；第二步 diffusion 就是训练 D2 让 G(Enc(X)) 和 G(z) 分布的距离接近。如下图：

最后，作者把 GAN 的网络训练坍塌的情况考虑进去，提出了新的 evaluation metric。

相关工作

本篇文章的作者李嫣然写过一篇非常棒的综述 ,在这里就不累赘阐述了。

简评

当下 GAN 的研究非常火爆，出现了许许多多对 GAN 的改进，本篇文章的提出的两种 regularizers 非常有效的提高了 GAN 的稳定性（其中 regularizer 的思想也受到了监督学习的启发），值得对 GAN 感兴趣的同学研读。

完成人信息

professorshui@gmail.com

Learning to compose words into sentences with reinforcement learning作者

Dani Yogatama, Phil Blunsom, Chris Dyer, Edward Grefenstette, Wang Ling

单位

Google

关键词

Tree-LSTM, Reinforcement Learning

文章来源

ICLR 2017

问题

使用强化学习来构建树结构的神经网络 Tree-LSTM，学习自然语言的句子表示

模型

模型分为两部分：Tree-LSTM 和强化学习模型

应用 Tree-LSTM(可以通过 LSTM 的忘记门机制，跳过整棵对结果影响不大的子树)，并结合{SHIFT，REDUCE}操作，SHIFT 操作对应将一个节点压入栈，REDUCE 对应将两个元素组合，从而建立树结构

强化学习用来寻找最佳的节点组合情况，RL 模型中的状态 s 即当前构建的树结构，a 为{SHIFT，REDUCE}操作，reward 对应不同 downstream

task(例：若是用该句子表示进行分类任务，则 r 对应从策略网络中采样得到句子表示的分类准确性的概率)

资源

作者将该工作进行了四组实验，情感分类，语义相关性判断，自然语言推理，句子生成

分别应用 Stanford Sentiment Treebank，Sentences Involving Compositional Knowledge corpus，Stanford Natural Language Inference corpus，IMDB movie review corpus

相关工作

与 Socher 等人之前提出的 Recursive NN,MV-RNN,RNTN，Tree-LSTM 等工作一脉相承，本文又加入了 RL 方式构建树形结构

简评

将强化学习引入句子表示学习之中，学习构建树的不同方式，从左向右，从右向左，双向，有监督、半监督、预先无结构等方式去构建树结构，但是训练时间较长，在几个任务上效果提升不是特别明显。

总结

GAN 是当下的研究热点之一，在图像领域中研究较多，本期有一篇 paper 探讨了 GAN 在 NLP 中的应用，GAN 值得关注和期待。

分享到QQ

分享到微博