- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 第二十一期 - 多模态机器翻译
引
多信息融合是一个重要的研究趋势,尤其是对于训练数据缺乏的任务来说,如何融入其他相关信息来提高本任务的准确率是一个非常值得研究的问题。机器翻译是一个热门的研究领域,随着训练数据规模地增加,各种 NN 模型的效果也取得了突破的进展,google 和百度均已部署上线 NMT 系统;融合图像、音频、视频、文本等各种模态数据的多模态研究也是一个非常热门的研究方向,本期 PaperWeekly 将为大家带来 NMT 和多模态交叉研究的 paper 解读,共 3 篇 paper:
1、Attention-based Multimodal Neural Machine Translation, 2016
2、Multimodal Attention for Neural Machine Translation, 2016
3、Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot, 2016
Attention-based Multimodal Neural Machine Translation
作者
Po-Yao Huang, Frederick Liu, Sz-Rung Shiang, Jean Oh, Chris Dyer
单位
CMU
关键词
Visual Features, Attention, Multimodal NMT
文章来源
ACL 2016
问题
多模态神经机器翻译,在传统的 seq2seq 翻译模型上,利用图像特征信息帮助提高机器翻译的结果
模型
在 WMT16 的多模态神经网络机器翻译新任务上的工作。
提出了 3 种如何将 visual feature 加入到 seq2seq 网络中的 encoder,从而使得 decoder 更好的 attention 到与图像,语义相关部分的模型: global visual feature, regional visual feature,paralle threads.
global visual: 直接将 VGG 中的 fc7 抽出的 feature 加入到 encoder 的 first step(head) 或者是 last step(tail)
regional visual: 先用 R-CNN 抽出 region box 的信息,再用 VGG 得到 fc7 的特征,将 top4 对应的 region feature,以及 global visual feature 分别作为每一个 step 输入到 encoder 中
parallel threads: 与 regional visual 相对应的是,每个 thread 只利用一个 region box 的 feature,和 global visual 一样的网络,将 top 4 对应的 4 threads 和 gloabl thread 一起做 average pooling,每个 therad 的参数共享; attention 则对应所有 threads 中的所有 hidden states
同时本文还提出了三种 rescoring translation 的结果的方法, 用 1)language model 2)bilingual autoencoder 3)bilingual dictionary 分别来挑选 translation 的句子,发现 bilingual dictionary 来删选翻译的句子效果最好
资源
数据集: WMT2016 (En-Ge)
图像特征提取: VGG, R-CNN
实验结果
在 En-Ge 的结果如图:
相关工作
NMT: Kalchbrenner and Blunsom 2013
Attention NMT: Bahdanau 2014
Joint Space Learning: Zhang 2014,Su 2015,Kiros 2014
多模态上相关工作目前并没有很多,值得快速入手
简评
本文提出了一种针对图像和文本结合的神经网络翻译模型,非常自然的将图像特征加入到 seq2seq 模型的 encoder 部分,使 decoder 不仅能够 attention 在文本上,同时也能够 focus 到图像上(global 或者 region);并且模型的设计比较简单,没有加入太多复杂的模块。
不过只是简单的将图像的特征作为 seq 中的一个 step,并没有考虑文本和图像之间的相关关系,如 joint space,相信加入 joint learing 会有提升。
完成人信息
Lijun Wu from SYSU.
Multimodal Attention for Neural Machine Translation
作者
Ozan Caglayan, Loïc Barrault, Fethi Bougares
单位
University of Le Mans, Galatasaray University
关键词
NMT, Attention
文章来源
arXiv 2016.09
问题
给定图片和源语言描述的情况下,基于 attention 机制,生成目标语言的图片描述。
模型
模型有两个 encoder,一个是 textual encoder,是一个双向 GRU,用于获取源语言文本的向量表示$A^{txt} = {a^{txt}_1,a^{txt}_2,…}$,另外一个是 visual encoder,使用的是现成由 ImageNet 数据集训好的 ResNet-50 网络,用于获取图片的向量表示。$A^{im} = {a^{im}_1,a^{im}_2,…}$. Decoder 部分,是两层的 stakced GRU,先用 attention 方式,分别获取文本部分和图像部分的 context 向量$c^{txt}$和$c^{im}$,然后将两个向量 concat 在一起,作为新的 context 向量$c$。
如图:
这样 decoder 部分的解码翻译的时候,不仅可以考虑到源语言的文本信息,也可以考虑到原始图片的信息。
资源
IAPRTC-12 dataset for English and German
相关工作
2014 年 Bahdanau 的 Neural Machine Translation by Jointly Learning to Align and Translate,使 NMT 超过了传统的 PBMT,后来的 NMT 论文基本都是在这个文章基础上进行的改进。
2015 年 Elliott 的工作 Multi-language image description with neural sequence models. 也是在给定源语言和图片的情况下,生成目标语言。不过并没有使用 attention 机制。
简评
该文章的创新之处,在于对图片描述文字进行翻译的时候,考虑到了图片本身的特征信息并引入 attention 机制。在源语言文本生成出错的情况下,因为有图片信息参考,在一定程度上,可以减轻这种错误带来的影响。不过文章并没有利用外部英德平行语料,这可以考虑作为后面的改进方向。
完成人信息
xiaose@mail.ustc.edu.cn
中国科学技术大学
Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot
作者
Hideki Nakayama,Noriki Nishida
单位
The University of Tokyo
关键词
pivot, multimodal, NMT
文章来源
arXiv, 2016.11
问题
在没有平行语料的情况下,用 image 当作 pivot 来实现机器翻译
模型
整体上讲,模型分成两部分。第一部分是多模态 embedding,采用 pairwise ranking loss 来定义损失函数;第二部分是用 RNN 来实现的 decoder,跟 image caption 里面的 decoder 类似。对这个问题来说,我们的训练数据包括$i^{s}$:源端的图片,$d^{s}$:源端图片对应的句子描述;$i^{t}$:目标端的图片,$d^{t}$:目标端图片对应的句子描述,和源端用的不一样的语言。文中提出了 2 个模型来解决这个问题:
模型 1 的多模态端包括了图片的 encoder 和源句子的 encoder。图片 encoder 可以对源图片和目标图片通用。多模态端用$i^{s}$,$d^{s}$进行训练,损失函数为:
$E^{v}$表示图片的 encoder(比如用 VGG-16 提取图片的 feature), $E^{s}$表示源句子的 encoder(比如用 RNN),$d^{s}_{ng}$表示和源端图片不相关的描述。Decoder 端用$i^{t}$,$d^{t}$进行训练,损失函数为标准的 cross-entropy loss(称作图片损失):
模型 2 比模型 1 更复杂一点。在源端增加了一个目标句子描述的 encoder。因此,在多模态 embedding 的学习中,损失函数增加了目标图片和目标图片描述的 pairwise ranking loss.
在 decoder 的学习中,模型 2 除了前面的公式 2 定义的图片损失外,还增加了目标描述的 reconstruction loss,即从多模态端输入目标描述,希望通过 embedding 和 decoder 重建这个目标描述。
资源
两个 Multilingual image-description 的数据集:IAPR-TC12(包含 2 万图片以及英语和德语的描述)和 Multi30K(包含 3 万图片以及英语和德语的描述)
相关工作
对于没有平行语料的机器翻译,多数文章是用某种常见语言作为 pivot,比如“Neural Machine Translation with Pivot Languages”, 用英语作为西班牙语法语以及德语法语之间的 pivot。缺点是翻译的时候还是要经过 pivot 那一步。 另外,还要一些工作是用一个模型实现 many to many 的翻译。在这种情况下,没有平行语料的语言对也能用这个模型进行翻译。不需要经过 pivot 那个中间层,但是效果一般会差一点。比如“Google’s Multilingual Neural Machine Translation System”这篇文章。
简评
这篇文章的思路很新颖,考虑用图片来作为 pivot,实现没有平行语料的语言对之间的翻译。训练完成后可以直接从源语言到目标语言进行翻译,不需要经过图片。但是正如文中提到的,这种方法跟有语料训练出来的翻译效果比起来还是差很多,并且翻译的句子都比较短。另外,对一些图片难以表达的信息很难通过这种方式学到。
完成人信息
yun.chencreek@gmail.com
来源:paperweekly
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论