返回介绍

PaperWeekly 2016.08.05 第一期

发布于 2025-01-21 00:48:32 字数 4662 浏览 0 评论 0 收藏 0

学术界和工业界的需求和关注点不同,学术界更加注重未知领域的探索和方法的创新,研究的问题比较抽象,而工业界更加关注实际问题,方法不管是否创新,只要能够解决问题就是好方法,所面对的问题比 paper 中提炼出的数学问题更加具体,需要处理的细节更多。

paper 的水平也是良莠不齐,尤其是 arxiv 上刷出来的 paper 更是水平各异。但整体来说,读 paper 会带来很多的启发,可以跟踪学术界对某一类问题的研究进展,不断地更新技术。关注工业界技术的应用和产品的更迭,可以不断地提炼出新的需求、新的数学问题,从而促进学术地发展,两者其实关系非常紧密。

本周开始,将 paperweekly 进行改版,从之前的每天一篇 paper,改为每周一篇,内容包括多篇 paper,这些 paper 可能相关、也可能不那么相关,但会说清每篇 paper 解决的问题和解决的方法,旨在拓宽视野,带来启发。本期是改版后的第一期,形式会一直不断地改进,希望工业界和学术界的朋友都能够有所收获。

DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks

关键词

在线广告、RNN、Attention

来源

kdd2016

问题

如何用 deep learning 模型挖掘 click logs 来理解用户 Intent?

方法

对于一个 (query,ad) 数据对,分别用 LSTM encode,然后用下图的方法计算一个 attention,得到最终的 query 和 ad vector,构造 loss function,取 logs 中(query,ad) 作为正例 d+,将 ad 替换为其他无关 ad 作为负例 d-,训练的目标是让 d+的 score 尽量大,让 d-的 score 尽量小。

评论

工业界有着学术界无法比拟的数据,大规模的真实数据是做 deep learning 的基础,大型商业搜索引擎积累了大量的 ad click logs,利用好这些 logs 可以赚到更多的钱。attention 机制在 2015 年开始逐渐成为一种流行趋势,借鉴于人类的注意力机制,让 model 将更多的注意力放在需要注意的地方,而不是每一个地方。本文并没有太多 model 上的创新,只是简单地将流行的 model 应用了自己研究的领域中,对工业界更有参考价值。

A Neural Knowledge Language Model

关键词

语言模型、知识图谱

来源

arXiv cs.CL 2016.08.01

问题

在自然语言生成(NLG) 问题中,出现次数非常少的 entity 该如何生成呢?

方法

四个步骤:

1、Input Representation

输入由三个部分拼接而成,第一部分是上一个 time step 的 fact 表示,第二部分是上一个 time step 的词表中的词表示,第三部分是上一个 time step 的 fact description 表示,这里 fact 就是(subject,relation,object),知识图谱中的一条事实,而后两个部分一定会有一个全为 0,因为是二选一的关系,但为了保证每一次的输入都是等长向量,所以用拼接来做。得到输入之后,用 LSTM 来 encode。

2、Fact Prediction

通过 1 的结果来预测当前 word 可能相关的 fact,得到的结果是一个 index,然后从 topic knowledge 中获得相应的表示,这里的 knowledge embedding 都是用 transE 训练好的,在整个模型训练中并不更新。

3、Knowledge-Copy Switch

根据 1 和 2 的结果,共同来预测当前要生成的词是从词表中获取的高频词还是从 knowledge 中获取的 entity,典型的二分类问题。

4、Word Generation

根据 3 的结果,来生成当前 time step 的词。对于词表中的高频词,和之前的生成方法一致;对于 fact description 中的 entity 词,通过预测词的 position 来 copy 这个词。

评论

语言模型是一个基本问题,传统的方法都有着一个尴尬之处是,会生成大量的出来,只要是涉及到 NLU 的问题,基本都会遇到这个问题。本文提供了一个很有启发性的方法,借助于知识图谱这种外部知识来帮助生成效果更好的话,单纯地靠 model 来提升效果是一件比较困难的事情,但增加一些外部信息进来则会带来更多的可能性。由于知识图谱的构建本身就是一件不易的事情,因此本文的学术意义远大于实际应用意义,为后续这种交叉式研究(知识图谱+深度学习)打开了一扇门,大家可以尝试更多的组合和可能。

Neural Sentence Ordering

关键词

句子排序

来源

arXiv cs.CL 2016.07.23

问题

给定乱序的 N 句话,如何将其按照逻辑排列好?(貌似是英语考试中的一种题型)

方法

本文定义的问题是给定 n 句话,找出最优排序,将这个问题降维到二维,就是如何排列两句话的顺序。上图给出了 model 的思路,对两句话分别进行 encode,得到两个向量表示,然后进行打分,分数表示当前顺序是正确顺序的概率。这里的 encode 部分,分别用了每句话中 word embeddings 的加权平均、RNN 和 CNN 来表示。

得到两两的排序之后,本文用 beam search 来得到整体最优的排序。

评论

多文档摘要问题中通用的一种做法是从每篇文档中都提取出一句或几句重要的话,然后进行排序。在英语考试中,有一种题型是给定你打乱顺序的几段话,然后根据逻辑将其排序。本文在学术上没有什么新的东西,但本文在构建 neural model 的时候,用到的数据集却非常容易构建,这意味着你在工程中应用这个方法来解决排序问题是可行的方案,所以本文更加适合有句子排序应用需求的工程人员来精读。

提问

计算机的会议非常多,各种 level 的都有,arXiv 上每天都可以刷出一些 paper,不同类型、不同 level 的 paper 适合不同需求的人来读,我觉得好东西的标准是适合而不是在某一个具体指标上达到最大,对你有用的东西才是适合你的好东西,有些特别牛逼的东西,有着极高学术价值的东西不见得适合工程人员来读,但也不应该是那种觉得学术上的东西离工程太远,没有什么具体用的态度,从各种各样的东西汲取养分,丰富和充实自己才是硬道理。读了一些 paper,也该思考一些问题了,这里提出一些比较 naive 的问题,欢迎大家踊跃留言和讨论。

1、这种 out-of-vocabulary 的问题是一个非常常见的问题,有哪些不错的思路可以来解决这个问题呢?

2、attention model 几乎满大街都是,最早在机器翻译领域中开始用这种模型,虽然在其他 nlp 领域中都取得了不错的成绩,但目前的 attention 真的适合每一类具体问题吗?是不是有一点为了 attention 而 attention 的感觉?neural summarization 和 machine translation 真的可以完全类比吗?或者说 attention 适合解决具有什么特征的问题呢?

3、信息越多,model 的效果一定会越好。现在外部信息非常丰富,但是如何融合到当前流行的 model 中来呢?如何将特定领域内构建的知识图谱完美地与特定任务中的 model 进行结合呢?以 task-oriented bot 为例,能够将客户的领域知识与 bot response 功能结合起来,做成一个更加高级的 bot 呢?

这里,我抛个砖,引个玉,希望更多的人能够参与讨论和提出问题。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文