- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 2016.08.05 第一期
引
学术界和工业界的需求和关注点不同,学术界更加注重未知领域的探索和方法的创新,研究的问题比较抽象,而工业界更加关注实际问题,方法不管是否创新,只要能够解决问题就是好方法,所面对的问题比 paper 中提炼出的数学问题更加具体,需要处理的细节更多。
paper 的水平也是良莠不齐,尤其是 arxiv 上刷出来的 paper 更是水平各异。但整体来说,读 paper 会带来很多的启发,可以跟踪学术界对某一类问题的研究进展,不断地更新技术。关注工业界技术的应用和产品的更迭,可以不断地提炼出新的需求、新的数学问题,从而促进学术地发展,两者其实关系非常紧密。
本周开始,将 paperweekly 进行改版,从之前的每天一篇 paper,改为每周一篇,内容包括多篇 paper,这些 paper 可能相关、也可能不那么相关,但会说清每篇 paper 解决的问题和解决的方法,旨在拓宽视野,带来启发。本期是改版后的第一期,形式会一直不断地改进,希望工业界和学术界的朋友都能够有所收获。
DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks
关键词
在线广告、RNN、Attention
来源
kdd2016
问题
如何用 deep learning 模型挖掘 click logs 来理解用户 Intent?
方法
对于一个 (query,ad) 数据对,分别用 LSTM encode,然后用下图的方法计算一个 attention,得到最终的 query 和 ad vector,构造 loss function,取 logs 中(query,ad) 作为正例 d+,将 ad 替换为其他无关 ad 作为负例 d-,训练的目标是让 d+的 score 尽量大,让 d-的 score 尽量小。
评论
工业界有着学术界无法比拟的数据,大规模的真实数据是做 deep learning 的基础,大型商业搜索引擎积累了大量的 ad click logs,利用好这些 logs 可以赚到更多的钱。attention 机制在 2015 年开始逐渐成为一种流行趋势,借鉴于人类的注意力机制,让 model 将更多的注意力放在需要注意的地方,而不是每一个地方。本文并没有太多 model 上的创新,只是简单地将流行的 model 应用了自己研究的领域中,对工业界更有参考价值。
A Neural Knowledge Language Model
关键词
语言模型、知识图谱
来源
arXiv cs.CL 2016.08.01
问题
在自然语言生成(NLG) 问题中,出现次数非常少的 entity 该如何生成呢?
方法
四个步骤:
1、Input Representation
输入由三个部分拼接而成,第一部分是上一个 time step 的 fact 表示,第二部分是上一个 time step 的词表中的词表示,第三部分是上一个 time step 的 fact description 表示,这里 fact 就是(subject,relation,object),知识图谱中的一条事实,而后两个部分一定会有一个全为 0,因为是二选一的关系,但为了保证每一次的输入都是等长向量,所以用拼接来做。得到输入之后,用 LSTM 来 encode。
2、Fact Prediction
通过 1 的结果来预测当前 word 可能相关的 fact,得到的结果是一个 index,然后从 topic knowledge 中获得相应的表示,这里的 knowledge embedding 都是用 transE 训练好的,在整个模型训练中并不更新。
3、Knowledge-Copy Switch
根据 1 和 2 的结果,共同来预测当前要生成的词是从词表中获取的高频词还是从 knowledge 中获取的 entity,典型的二分类问题。
4、Word Generation
根据 3 的结果,来生成当前 time step 的词。对于词表中的高频词,和之前的生成方法一致;对于 fact description 中的 entity 词,通过预测词的 position 来 copy 这个词。
评论
语言模型是一个基本问题,传统的方法都有着一个尴尬之处是,会生成大量的出来,只要是涉及到 NLU 的问题,基本都会遇到这个问题。本文提供了一个很有启发性的方法,借助于知识图谱这种外部知识来帮助生成效果更好的话,单纯地靠 model 来提升效果是一件比较困难的事情,但增加一些外部信息进来则会带来更多的可能性。由于知识图谱的构建本身就是一件不易的事情,因此本文的学术意义远大于实际应用意义,为后续这种交叉式研究(知识图谱+深度学习)打开了一扇门,大家可以尝试更多的组合和可能。
Neural Sentence Ordering
关键词
句子排序
来源
arXiv cs.CL 2016.07.23
问题
给定乱序的 N 句话,如何将其按照逻辑排列好?(貌似是英语考试中的一种题型)
方法
本文定义的问题是给定 n 句话,找出最优排序,将这个问题降维到二维,就是如何排列两句话的顺序。上图给出了 model 的思路,对两句话分别进行 encode,得到两个向量表示,然后进行打分,分数表示当前顺序是正确顺序的概率。这里的 encode 部分,分别用了每句话中 word embeddings 的加权平均、RNN 和 CNN 来表示。
得到两两的排序之后,本文用 beam search 来得到整体最优的排序。
评论
多文档摘要问题中通用的一种做法是从每篇文档中都提取出一句或几句重要的话,然后进行排序。在英语考试中,有一种题型是给定你打乱顺序的几段话,然后根据逻辑将其排序。本文在学术上没有什么新的东西,但本文在构建 neural model 的时候,用到的数据集却非常容易构建,这意味着你在工程中应用这个方法来解决排序问题是可行的方案,所以本文更加适合有句子排序应用需求的工程人员来精读。
提问
计算机的会议非常多,各种 level 的都有,arXiv 上每天都可以刷出一些 paper,不同类型、不同 level 的 paper 适合不同需求的人来读,我觉得好东西的标准是适合而不是在某一个具体指标上达到最大,对你有用的东西才是适合你的好东西,有些特别牛逼的东西,有着极高学术价值的东西不见得适合工程人员来读,但也不应该是那种觉得学术上的东西离工程太远,没有什么具体用的态度,从各种各样的东西汲取养分,丰富和充实自己才是硬道理。读了一些 paper,也该思考一些问题了,这里提出一些比较 naive 的问题,欢迎大家踊跃留言和讨论。
1、这种 out-of-vocabulary 的问题是一个非常常见的问题,有哪些不错的思路可以来解决这个问题呢?
2、attention model 几乎满大街都是,最早在机器翻译领域中开始用这种模型,虽然在其他 nlp 领域中都取得了不错的成绩,但目前的 attention 真的适合每一类具体问题吗?是不是有一点为了 attention 而 attention 的感觉?neural summarization 和 machine translation 真的可以完全类比吗?或者说 attention 适合解决具有什么特征的问题呢?
3、信息越多,model 的效果一定会越好。现在外部信息非常丰富,但是如何融合到当前流行的 model 中来呢?如何将特定领域内构建的知识图谱完美地与特定任务中的 model 进行结合呢?以 task-oriented bot 为例,能够将客户的领域知识与 bot response 功能结合起来,做成一个更加高级的 bot 呢?
这里,我抛个砖,引个玉,希望更多的人能够参与讨论和提出问题。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论