- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 第十三期--最新文章解读
引言
本期的 PaperWeekly 一共分享四篇最近 arXiv 上放出的高质量 paper,包括:机器翻译、表示学习、推荐系统和聊天机器人。人工智能及其相关研究日新月异,本文将带着大家了解一下以上四个研究方向都有哪些最新进展。四篇 paper 分别是:
1、A General Framework for Content-enhanced Network Representation Learning, 2016.10
2、Collaborative Recurrent Autoencoder: Recommend while Learning to Fill in the Blanks, 2016.11
3、Dual Learning for Machine Translation, 2016.11
4、Two are Better than One: An Ensemble of Retrieval- and Generation-Based Dialog Systems, 2016.10
A General Framework for Content-enhanced Network Representation Learning作者
Xiaofei Sun, Jiang Guo, Xiao Ding and Ting Liu
单位
Center for Social Computing and Information Retrieval, Harbin Institute of Technology, China
关键词
network representation, content-enhanced
文章来源
arXiv
问题
同时利用网络结构特征和文本特征来学习网络中节点的 embedding
模型
总的来说这篇 paper 的思路比较清晰,学习的方法上很大程度上参考了 word2vec 的方法。对于一个节点 v,将与 v 相连的节点当做正例,不想连的节点当做负例。那么如何融入内容呢?在网络中设置虚拟的内容节点 c,将描述 v 节点的文本内容 c_v 当做正例,其他的当做负例 c_v’。在优化时同时考虑网络相似性和文本相似性,让 v 的向量靠近正例远离负例。
总的优化函数如下所示,由两个部分 L_nn(节点与节点连接) 和 L_nc(节点与内容连接) 线性组合而成,alpha 越大则考虑网络结构越多文本内容越少。
L_nn 和 L_nc 大体思想如上面所言,两者损失函数一致,尽量接近正例远离反例。但是两者在描述节点概率(相似度)上会有所不同。
对于节点与节点之间的概率,由于网络结构要考虑有向性,因此将节点的 embedding 切分成 in 和 out 两半,用 sigmoid 算两个节点的相似度。
节点与内容的概率也是类似,不过内容节点的 embedding 是固定的,通过额外的文本模型训练出来的。这里尝试的文本 model 包括 word2vec,RNN 和 BiRNN。
最后在节点分类任务上进行了评测,同时结合网络结构特征和文本特征确实带来了明显的提高。
资源
用到的数据集是 DBLP(cn.aminer.org/citation)和自己采集的知乎用户网络。
相关工作
这两年 network representation 的工作如雨后春笋,在 DeepWalk 之后有十余篇论文出现。这篇文章在相关工作里有相对全面的覆盖,对这方面工作有兴趣的同学值得参考。
简评
尽管相关模型层出迭见,但略感遗憾的是感觉目前并没有在 network embedding 之上的较为成功的应用,大多 benchmark 都是节点分类和链接预测,应用价值有限。十分期待一些更为新颖的 benchmark 的出现。
Recurrent Autoencoder Recommend while Learning to Fill in the Blanks作者
Hao Wang, Xingjian Shi, Dit-Yan Yeung
单位
HKUST
关键词
Recommendation, Collaborative Filtering, RNN
文章来源
Arxiv, to appear at NIPS’16
问题
本文的主要贡献是提出 collaborative recurrent autoencoder (CRAE),将 CF (collaborative filtering) 跟 RNN 结合在一起,提高推荐的准确率,并且可以用于 sequence generation task。
模型
传统的 LSTM 模型没有考虑进噪声,对不足的训练数据稳定性不好,文章提出 RRN (robust recurrent networks),为 RNN 的加噪版本,RRN 中的噪声直接在网络中向前或者向后传播,不需要分开的网络来估计 latent variables 的分布,更容易实现且效率高。CARE 的模型如下图所示,序列处理的信息保存在 cell state s_t 和输出状态 h_t 中,两个 RRN 可以组合形成编码译码结构。
Wildcard denoising 的目的是缓解 overfitting,做法是随机选择一些词,替换成 ,而不是直接扔掉词,实验验证准确率会提成 20%左右。Beta-pooling 的目的是将向量序列 pool 成固定长度为 2K_W 的单向量,帮助 rating matrix 的矩阵分解;因为不同序列可能需要不同大小的权重,所以需要变长的 beta 向量来帮助 pooling,文章采用 beta 分布。
Learning 的过程采用 MAP,类似于 CDL 和 DTR。学到矩阵 U 和 V 之后,我们可以预计评分矩阵 R。
资源
1、CiteULike
2、Netflix
相关工作
选取当中两个比较有意思的 work。
1、CTR (collaborative topic reguression)
将 topic model 和 probabilistic matrix factorization (PMF),但是 CTR 采用 bag-of-words 的表示形式,忽略了词序和每个词的局部语境,而这些对文章表示和 word embeddings 能提供有价值的信息。
2、CDL (collaborative deep learning)
将 CF 和 probabilistic stacked denoising autoencoder (SDAE) 结合起来,是一个以 bag-of-words 为输入的 feedforward 模型,并不能解决 sequence generation 的问题。
简评
这篇文章将 RNN 用于 recommendation,并且与 rating matrix 结合起来,比较有意思,而且考虑了数据稀疏的情况,pooling 的方法也值得借鉴。
Dual Learning for Machine Translation作者
Yingce Xia1, Di He, Tao Qin, Liwei Wang, Nenghai Yu1, Tie-Yan Liu, Wei-Ying Ma
单位
1、University of Science and Technology of China
2、Key Laboratory of Machine Perception (MOE), School of EECS, Peking University
3、Microsoft Research
关键词
Dual Learning, Machine Translation, Deep Reinforcement Learning
文章来源
arXiv, 1 Nov 2016
问题
文章针对机器翻译时需要的人工标注的双语平行语料获取代价高的问题,提出了 Dual Learning Model 使用单语语料来进行训练,取得了比使用双语平行语料训练的模型更好的结果。
模型
模型的核心思想见下图:
(注:上图来自 CCL2016 马维英老师 PPT)
对上图的详细解释:
模型中有两个 Agent,Agengt_A 和 Agent_B,Agent_A 只能够理解 A 语言,Agent_B 只能理解 B 语言,model f 是将 A 语言翻译成 B 语言的翻译模型,model f 是将 B 语言翻译成 A 语言的翻译模
型。上图的执行过程可以按照下面的解释进行:
1、Agent_A 发送一句 A 语言的自然语言的话 X1
2、model f 将 X 转换成为 B 语言的自然语言 Y
3、Agent_B 收到 Y,并将 Y 传送给 model g
4、model g 将 Y 转换成源语言 A 的自然语言 X2
5、比较 X1 和 X2 的差异性,并给出反馈.并进行 1 到 4 的反复训练
模型的算法过程:
在 step8 的时候对翻译模型翻译的结果使用语言模型做了一个判定,判定一个句子在多大程度上是自然语言。step9 是给 communication 一个 reward,step10 将 step8 和 step9 加权共同作为样例的 reward.然后使用 policy gradient 进行优化。
需要说明的 model f 和 model g 是已有的模型或者说在刚开始的时候使用少量的双语语料进行训练得到吗,然后逐渐加大单语语料的比例。
资源
1、NMT code:
2、compute BLEU score by the multi-bleu.perl:
相关工作
1、the standard NMT, Neural machine translation by jointly learning to align
and translate. ICLR, 2015.
2、pseudo-NMT, Improving neural machine translation models with monolingual data. In ACL, 2016.
简评
本文的思想很创新,利用了机器翻译中的 dual mechinism,仅仅利用少部分双语语料和大部分单语语料就可以达到之前 NMT 的效果,甚至还高了 2 到 3 个百分点。
dual 的思想不仅可以用于机器翻译中,还可以用于图片、语音、文字等多种语言的共同学习,这样的相互作用共同学习更接近于人类对周围世界认识的方式,接受来自各个方面的信心,综合进行学习。
Two are Better than One: An Ensemble of Retrieval and Generation-Based Dialog作者
Yiping Song, Rui Yan, Xiang Li, Dongyan Zhao, Ming Zhang
单位
北京大学
关键词
对话系统、open domain、chatbot
文章来源
arXiv
问题
对话系统中可将问题和检索的结果同时作为输入 Encoder 之后进行解码 Decoder,再将生成的结果和原检索结果重排序
模型
相关工作
简评
作者的思路非常简单,原来的回复生成模型容易发生回复内容短或者回复信息无意义的问题,在此作者将候选结果和原来的问句同时作为 RNN 生成器的输入,生成结果后再将本次生成的结果加入原检索候选集中,进行重新排序,实验结果证明此种方法比单独使用检索或单独使用生成效果有大幅提升。
总结
新的研究成果不见得可以直接应用于工程中,但新的 paper,尤其是高质量 paper 中,一定会有很多的创新点,每一个创新点都可能会为后续的研究、工程实现等带来启发,甚至是一些技术上的突破。从本期开始,PaperWeekly 会不定期地分享类似的内容,以方便大家了解最新的研究成果。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论