返回介绍

PaperWeekly 第二十一期 - 多模态机器翻译

发布于 2025-01-21 00:48:34 字数 9058 浏览 0 评论 0 收藏 0

多信息融合是一个重要的研究趋势,尤其是对于训练数据缺乏的任务来说,如何融入其他相关信息来提高本任务的准确率是一个非常值得研究的问题。机器翻译是一个热门的研究领域,随着训练数据规模地增加,各种 NN 模型的效果也取得了突破的进展,google 和百度均已部署上线 NMT 系统;融合图像、音频、视频、文本等各种模态数据的多模态研究也是一个非常热门的研究方向,本期 PaperWeekly 将为大家带来 NMT 和多模态交叉研究的 paper 解读,共 3 篇 paper:

1、Attention-based Multimodal Neural Machine Translation, 2016
2、Multimodal Attention for Neural Machine Translation, 2016
3、Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot, 2016

Attention-based Multimodal Neural Machine Translation

作者

Po-Yao Huang, Frederick Liu, Sz-Rung Shiang, Jean Oh, Chris Dyer

单位

CMU

关键词

Visual Features, Attention, Multimodal NMT

文章来源

ACL 2016

问题

多模态神经机器翻译,在传统的 seq2seq 翻译模型上,利用图像特征信息帮助提高机器翻译的结果

模型

在 WMT16 的多模态神经网络机器翻译新任务上的工作。
提出了 3 种如何将 visual feature 加入到 seq2seq 网络中的 encoder,从而使得 decoder 更好的 attention 到与图像,语义相关部分的模型: global visual feature, regional visual feature,paralle threads.

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

global visual: 直接将 VGG 中的 fc7 抽出的 feature 加入到 encoder 的 first step(head) 或者是 last step(tail)

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

regional visual: 先用 R-CNN 抽出 region box 的信息,再用 VGG 得到 fc7 的特征,将 top4 对应的 region feature,以及 global visual feature 分别作为每一个 step 输入到 encoder 中

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

parallel threads: 与 regional visual 相对应的是,每个 thread 只利用一个 region box 的 feature,和 global visual 一样的网络,将 top 4 对应的 4 threads 和 gloabl thread 一起做 average pooling,每个 therad 的参数共享; attention 则对应所有 threads 中的所有 hidden states

同时本文还提出了三种 rescoring translation 的结果的方法, 用 1)language model 2)bilingual autoencoder 3)bilingual dictionary 分别来挑选 translation 的句子,发现 bilingual dictionary 来删选翻译的句子效果最好

资源

数据集: WMT2016 (En-Ge)
图像特征提取: VGG, R-CNN

实验结果

在 En-Ge 的结果如图:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

相关工作

NMT: Kalchbrenner and Blunsom 2013
Attention NMT: Bahdanau 2014
Joint Space Learning: Zhang 2014,Su 2015,Kiros 2014
多模态上相关工作目前并没有很多,值得快速入手

简评

本文提出了一种针对图像和文本结合的神经网络翻译模型,非常自然的将图像特征加入到 seq2seq 模型的 encoder 部分,使 decoder 不仅能够 attention 在文本上,同时也能够 focus 到图像上(global 或者 region);并且模型的设计比较简单,没有加入太多复杂的模块。
不过只是简单的将图像的特征作为 seq 中的一个 step,并没有考虑文本和图像之间的相关关系,如 joint space,相信加入 joint learing 会有提升。

完成人信息

Lijun Wu from SYSU.

Multimodal Attention for Neural Machine Translation

作者

Ozan Caglayan, Loïc Barrault, Fethi Bougares

单位

University of Le Mans, Galatasaray University

关键词

NMT, Attention

文章来源

arXiv 2016.09

问题

给定图片和源语言描述的情况下,基于 attention 机制,生成目标语言的图片描述。

模型

模型有两个 encoder,一个是 textual encoder,是一个双向 GRU,用于获取源语言文本的向量表示$A^{txt} = {a^{txt}_1,a^{txt}_2,…}$,另外一个是 visual encoder,使用的是现成由 ImageNet 数据集训好的 ResNet-50 网络,用于获取图片的向量表示。$A^{im} = {a^{im}_1,a^{im}_2,…}$. Decoder 部分,是两层的 stakced GRU,先用 attention 方式,分别获取文本部分和图像部分的 context 向量$c^{txt}$和$c^{im}$,然后将两个向量 concat 在一起,作为新的 context 向量$c$。
如图:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这样 decoder 部分的解码翻译的时候,不仅可以考虑到源语言的文本信息,也可以考虑到原始图片的信息。

资源

IAPRTC-12 dataset for English and German

相关工作

2014 年 Bahdanau 的 Neural Machine Translation by Jointly Learning to Align and Translate,使 NMT 超过了传统的 PBMT,后来的 NMT 论文基本都是在这个文章基础上进行的改进。
2015 年 Elliott 的工作 Multi-language image description with neural sequence models. 也是在给定源语言和图片的情况下,生成目标语言。不过并没有使用 attention 机制。

简评

该文章的创新之处,在于对图片描述文字进行翻译的时候,考虑到了图片本身的特征信息并引入 attention 机制。在源语言文本生成出错的情况下,因为有图片信息参考,在一定程度上,可以减轻这种错误带来的影响。不过文章并没有利用外部英德平行语料,这可以考虑作为后面的改进方向。

完成人信息

xiaose@mail.ustc.edu.cn

中国科学技术大学

Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot

作者

Hideki Nakayama,Noriki Nishida

单位

The University of Tokyo

关键词

pivot, multimodal, NMT

文章来源

arXiv, 2016.11

问题

在没有平行语料的情况下,用 image 当作 pivot 来实现机器翻译

模型

整体上讲,模型分成两部分。第一部分是多模态 embedding,采用 pairwise ranking loss 来定义损失函数;第二部分是用 RNN 来实现的 decoder,跟 image caption 里面的 decoder 类似。对这个问题来说,我们的训练数据包括$i^{s}$:源端的图片,$d^{s}$:源端图片对应的句子描述;$i^{t}$:目标端的图片,$d^{t}$:目标端图片对应的句子描述,和源端用的不一样的语言。文中提出了 2 个模型来解决这个问题:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

模型 1 的多模态端包括了图片的 encoder 和源句子的 encoder。图片 encoder 可以对源图片和目标图片通用。多模态端用$i^{s}$,$d^{s}$进行训练,损失函数为:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

$E^{v}$表示图片的 encoder(比如用 VGG-16 提取图片的 feature), $E^{s}$表示源句子的 encoder(比如用 RNN),$d^{s}_{ng}$表示和源端图片不相关的描述。Decoder 端用$i^{t}$,$d^{t}$进行训练,损失函数为标准的 cross-entropy loss(称作图片损失):

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

模型 2 比模型 1 更复杂一点。在源端增加了一个目标句子描述的 encoder。因此,在多模态 embedding 的学习中,损失函数增加了目标图片和目标图片描述的 pairwise ranking loss.

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

在 decoder 的学习中,模型 2 除了前面的公式 2 定义的图片损失外,还增加了目标描述的 reconstruction loss,即从多模态端输入目标描述,希望通过 embedding 和 decoder 重建这个目标描述。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

资源

两个 Multilingual image-description 的数据集:IAPR-TC12(包含 2 万图片以及英语和德语的描述)和 Multi30K(包含 3 万图片以及英语和德语的描述)

相关工作

对于没有平行语料的机器翻译,多数文章是用某种常见语言作为 pivot,比如“Neural Machine Translation with Pivot Languages”, 用英语作为西班牙语法语以及德语法语之间的 pivot。缺点是翻译的时候还是要经过 pivot 那一步。 另外,还要一些工作是用一个模型实现 many to many 的翻译。在这种情况下,没有平行语料的语言对也能用这个模型进行翻译。不需要经过 pivot 那个中间层,但是效果一般会差一点。比如“Google’s Multilingual Neural Machine Translation System”这篇文章。

简评

这篇文章的思路很新颖,考虑用图片来作为 pivot,实现没有平行语料的语言对之间的翻译。训练完成后可以直接从源语言到目标语言进行翻译,不需要经过图片。但是正如文中提到的,这种方法跟有语料训练出来的翻译效果比起来还是差很多,并且翻译的句子都比较短。另外,对一些图片难以表达的信息很难通过这种方式学到。

完成人信息

yun.chencreek@gmail.com

来源:paperweekly

原文链接

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文