返回介绍

PaperWeekly 第十三期--最新文章解读

发布于 2025-01-21 00:48:33 字数 6396 浏览 0 评论 0 收藏 0

引言

本期的 PaperWeekly 一共分享四篇最近 arXiv 上放出的高质量 paper,包括:机器翻译、表示学习、推荐系统和聊天机器人。人工智能及其相关研究日新月异,本文将带着大家了解一下以上四个研究方向都有哪些最新进展。四篇 paper 分别是:

1、A General Framework for Content-enhanced Network Representation Learning, 2016.10

2、Collaborative Recurrent Autoencoder: Recommend while Learning to Fill in the Blanks, 2016.11

3、Dual Learning for Machine Translation, 2016.11

4、Two are Better than One: An Ensemble of Retrieval- and Generation-Based Dialog Systems, 2016.10

A General Framework for Content-enhanced Network Representation Learning作者

Xiaofei Sun, Jiang Guo, Xiao Ding and Ting Liu

单位

Center for Social Computing and Information Retrieval, Harbin Institute of Technology, China

关键词

network representation, content-enhanced

文章来源

arXiv

问题

同时利用网络结构特征和文本特征来学习网络中节点的 embedding

模型

总的来说这篇 paper 的思路比较清晰,学习的方法上很大程度上参考了 word2vec 的方法。对于一个节点 v,将与 v 相连的节点当做正例,不想连的节点当做负例。那么如何融入内容呢?在网络中设置虚拟的内容节点 c,将描述 v 节点的文本内容 c_v 当做正例,其他的当做负例 c_v’。在优化时同时考虑网络相似性和文本相似性,让 v 的向量靠近正例远离负例。

总的优化函数如下所示,由两个部分 L_nn(节点与节点连接) 和 L_nc(节点与内容连接) 线性组合而成,alpha 越大则考虑网络结构越多文本内容越少。

L_nn 和 L_nc 大体思想如上面所言,两者损失函数一致,尽量接近正例远离反例。但是两者在描述节点概率(相似度)上会有所不同。

对于节点与节点之间的概率,由于网络结构要考虑有向性,因此将节点的 embedding 切分成 in 和 out 两半,用 sigmoid 算两个节点的相似度。

节点与内容的概率也是类似,不过内容节点的 embedding 是固定的,通过额外的文本模型训练出来的。这里尝试的文本 model 包括 word2vec,RNN 和 BiRNN。

最后在节点分类任务上进行了评测,同时结合网络结构特征和文本特征确实带来了明显的提高。

资源

用到的数据集是 DBLP(cn.aminer.org/citation)和自己采集的知乎用户网络。

相关工作

这两年 network representation 的工作如雨后春笋,在 DeepWalk 之后有十余篇论文出现。这篇文章在相关工作里有相对全面的覆盖,对这方面工作有兴趣的同学值得参考。

简评

尽管相关模型层出迭见,但略感遗憾的是感觉目前并没有在 network embedding 之上的较为成功的应用,大多 benchmark 都是节点分类和链接预测,应用价值有限。十分期待一些更为新颖的 benchmark 的出现。

Recurrent Autoencoder Recommend while Learning to Fill in the Blanks作者

Hao Wang, Xingjian Shi, Dit-Yan Yeung

单位

HKUST

关键词

Recommendation, Collaborative Filtering, RNN

文章来源

Arxiv, to appear at NIPS’16

问题

本文的主要贡献是提出 collaborative recurrent autoencoder (CRAE),将 CF (collaborative filtering) 跟 RNN 结合在一起,提高推荐的准确率,并且可以用于 sequence generation task。

模型

传统的 LSTM 模型没有考虑进噪声,对不足的训练数据稳定性不好,文章提出 RRN (robust recurrent networks),为 RNN 的加噪版本,RRN 中的噪声直接在网络中向前或者向后传播,不需要分开的网络来估计 latent variables 的分布,更容易实现且效率高。CARE 的模型如下图所示,序列处理的信息保存在 cell state s_t 和输出状态 h_t 中,两个 RRN 可以组合形成编码译码结构。

Wildcard denoising 的目的是缓解 overfitting,做法是随机选择一些词,替换成 ,而不是直接扔掉词,实验验证准确率会提成 20%左右。Beta-pooling 的目的是将向量序列 pool 成固定长度为 2K_W 的单向量,帮助 rating matrix 的矩阵分解;因为不同序列可能需要不同大小的权重,所以需要变长的 beta 向量来帮助 pooling,文章采用 beta 分布。

Learning 的过程采用 MAP,类似于 CDL 和 DTR。学到矩阵 U 和 V 之后,我们可以预计评分矩阵 R。

资源

1、CiteULike

2、Netflix

相关工作

选取当中两个比较有意思的 work。

1、CTR (collaborative topic reguression)

将 topic model 和 probabilistic matrix factorization (PMF),但是 CTR 采用 bag-of-words 的表示形式,忽略了词序和每个词的局部语境,而这些对文章表示和 word embeddings 能提供有价值的信息。

2、CDL (collaborative deep learning)

将 CF 和 probabilistic stacked denoising autoencoder (SDAE) 结合起来,是一个以 bag-of-words 为输入的 feedforward 模型,并不能解决 sequence generation 的问题。

简评

这篇文章将 RNN 用于 recommendation,并且与 rating matrix 结合起来,比较有意思,而且考虑了数据稀疏的情况,pooling 的方法也值得借鉴。

Dual Learning for Machine Translation作者

Yingce Xia1, Di He, Tao Qin, Liwei Wang, Nenghai Yu1, Tie-Yan Liu, Wei-Ying Ma

单位

1、University of Science and Technology of China

2、Key Laboratory of Machine Perception (MOE), School of EECS, Peking University

3、Microsoft Research

关键词

Dual Learning, Machine Translation, Deep Reinforcement Learning

文章来源

arXiv, 1 Nov 2016

问题

文章针对机器翻译时需要的人工标注的双语平行语料获取代价高的问题,提出了 Dual Learning Model 使用单语语料来进行训练,取得了比使用双语平行语料训练的模型更好的结果。

模型

模型的核心思想见下图:

(注:上图来自 CCL2016 马维英老师 PPT)

对上图的详细解释:

模型中有两个 Agent,Agengt_A 和 Agent_B,Agent_A 只能够理解 A 语言,Agent_B 只能理解 B 语言,model f 是将 A 语言翻译成 B 语言的翻译模型,model f 是将 B 语言翻译成 A 语言的翻译模

型。上图的执行过程可以按照下面的解释进行:

1、Agent_A 发送一句 A 语言的自然语言的话 X1

2、model f 将 X 转换成为 B 语言的自然语言 Y

3、Agent_B 收到 Y,并将 Y 传送给 model g

4、model g 将 Y 转换成源语言 A 的自然语言 X2

5、比较 X1 和 X2 的差异性,并给出反馈.并进行 1 到 4 的反复训练

模型的算法过程:

在 step8 的时候对翻译模型翻译的结果使用语言模型做了一个判定,判定一个句子在多大程度上是自然语言。step9 是给 communication 一个 reward,step10 将 step8 和 step9 加权共同作为样例的 reward.然后使用 policy gradient 进行优化。

需要说明的 model f 和 model g 是已有的模型或者说在刚开始的时候使用少量的双语语料进行训练得到吗,然后逐渐加大单语语料的比例。

资源

1、NMT code:

2、compute BLEU score by the multi-bleu.perl:

相关工作

1、the standard NMT, Neural machine translation by jointly learning to align

and translate. ICLR, 2015.

2、pseudo-NMT, Improving neural machine translation models with monolingual data. In ACL, 2016.

简评

本文的思想很创新,利用了机器翻译中的 dual mechinism,仅仅利用少部分双语语料和大部分单语语料就可以达到之前 NMT 的效果,甚至还高了 2 到 3 个百分点。

dual 的思想不仅可以用于机器翻译中,还可以用于图片、语音、文字等多种语言的共同学习,这样的相互作用共同学习更接近于人类对周围世界认识的方式,接受来自各个方面的信心,综合进行学习。

Two are Better than One: An Ensemble of Retrieval and Generation-Based Dialog作者

Yiping Song, Rui Yan, Xiang Li, Dongyan Zhao, Ming Zhang

单位

北京大学

关键词

对话系统、open domain、chatbot

文章来源

arXiv

问题

对话系统中可将问题和检索的结果同时作为输入 Encoder 之后进行解码 Decoder,再将生成的结果和原检索结果重排序

模型

相关工作

简评

作者的思路非常简单,原来的回复生成模型容易发生回复内容短或者回复信息无意义的问题,在此作者将候选结果和原来的问句同时作为 RNN 生成器的输入,生成结果后再将本次生成的结果加入原检索候选集中,进行重新排序,实验结果证明此种方法比单独使用检索或单独使用生成效果有大幅提升。

总结

新的研究成果不见得可以直接应用于工程中,但新的 paper,尤其是高质量 paper 中,一定会有很多的创新点,每一个创新点都可能会为后续的研究、工程实现等带来启发,甚至是一些技术上的突破。从本期开始,PaperWeekly 会不定期地分享类似的内容,以方便大家了解最新的研究成果。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文