- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
说起关系抽取,就不得不提远程监督(distant supervision),将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器。提到远程监督,下面的这篇工作就不得不提:
[1] Distant supervision for relation extraction without labeled data
本文并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提出了一个著名的假设。
If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.
这个假设非常的大,其实很多的共现 entities 都没有什么关系,仅仅是出现在同一个句子中;而有的 entities 之间的关系其实并不仅仅只有一种,可能有多种,比如奥巴马和美国的关系,可能是 born in,也可能是 is the president of 的关系。
基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点:
1. 基于文献 [1] 给出的假设,训练集会产生大量的 wrong labels,比如两个实体有多种关系或者根本在这句话中没有任何关系,这样的训练数据会对关系抽取器产生影响。
2. NLP 工具带来的误差,比如 NER,比如 Parsing 等,越多的 feature engineering 就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。
关于问题(1)中 wrong labels 的问题,有的工作将关系抽取定义为一个 Multi-instance Multi-label 学习问题,比如工作 Multi-instance Multi-label Learning for Relation Extraction ,训练集中的每个 instance 都可能是一种 label。
而有的工作则是将问题定义为 Multi-instance Single-label 问题,假设共现的 entity 对之间只存在一种关系或者没有关系,一组包括同一对 entities 的 instances 定义为一个 Bag,每一个 Bag 具有一个 label,最终训练的目标是优化 Bag Label 的准确率。第一种假设更加接近于实际情况,研究难度也相对更大一些。
关于问题(2)中的 pipeline 问题,用深度学习的思路来替代特征工程是一个非常自然的想法,用 word embedding 来表示句子中的 entity 和 word,用 RNN 或者 CNN 以及各种 RNN 和 CNN 的变种模型来对句子进行建模,将训练句子表示成一个 sentence vector,然后进行关系分类,近几年有几个工作都是类似的思路,比如:
[3] Relation Classification via Convolutional Deep Neural Network
[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
[5] Neural Relation Extraction with Selective Attention over Instances
[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
其中 [3] 是用 CNN 对句子进行建模然后进行分类学习,在表示中针对 entity 的位置定义了一种 position embedding,如图 1:
▲ 图 1:用 CNN 来建模句子
[4] 是 [3] 的改进工作,对 CNN 的 pooling 进行了专门的改进,如图 2:
▲ 图 2:PCNN 是文献 [3] 中 CNN 的改进版
[5] 的工作是在 [4] 的基础上采用了 attention 模型,对每个 Bag 中的 instance 进行了权重的学习,label 正确的 instance 贡献更多的力量,label 不正确的 instance 贡献就低,从而提高了分类的准确率,如图 3:
▲ 图 3:基于 attention 的关系分类模型
[6] 是在 [4] [5] 的基础上添加了 entity 的描述信息来辅助学习 entity 的表示,从而提高了准确率,如图 4:
▲ 图 4:利用了 entity 的辅助信息来提升效果
用深度学习来进行解决特征表示的问题效果非常明显,但解决 pipeline 误差传播和积累的问题,其实有一个天然的思路就是 joint learning,将多个 step 的学习整合为同一个 task,从而降低中间过程的误差。近几年有以下几个工作可以关注一下:
[7] Modeling Joint Entity and Relation Extraction with Table Representation
[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
[7] 的工作和 [9] 的工作有一些类似的地方,都是将整个任务转化为一种序列标注任务,用自定义的标签重新定义了句子的实体和关系。[9] 的工作是 ACL 2017 的 outstanding paper,用了近几年流行的 seq2seq 来生成和推理标签,效果会比传统的 crf 等算法更好。
▲ 图 5:文献 [7] 的标注方法
▲ 图 6:文献 [9] 的标注方法
[8] 的工作是将 entity 和 relation 分别映射在两个向量空间中,然后联合起来对 entity 和 relaiton 进行推理。如图 7:
▲ 图 7:CoType 模型图
关系抽取是一类经典的 NLP 任务,也是构建高质量知识图谱的基础,针对关系抽取的研究工作非常多,远程监督是研究中的热点方法,本文收集了一些代表性的工作,即将上线的 PaperWeekly 社区将会推出一个【论文集】的功能,社区用户可以根据自己感兴趣的 topic,收集相关的 paper,我们也会不定期地放出更多精彩的 topic related 的 paper,每篇 paper 都会有用户的笔记、讨论、论文相关的数据集和开源代码, 敬请期待!
参考文献:
在 PaperWeekly 微信公众号后台回复“ 远程监督 ”,即可一键下载所有论文。
[1] Distant supervision for relation extraction without labeled data
[2] Multi-instance Multi-label Learning for Relation Extraction
[3] Relation Classification via Convolutional Deep Neural Network
[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
[5] Neural Relation Extraction with Selective Attention over Instances
[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
[7] Modeling Joint Entity and Relation Extraction with Table Representation
[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
关于投稿
PaperWeekly 希望能让更多优质内容以更短路径到达读者群体,缩短读者寻找资源的成本,让知识真正流动起来。
如果你也想分享你的最新科研成果、学习心得亦或技术干货,欢迎在 PaperWeekly 微信公众号后台点击“ 投稿通道 ”菜单进行投稿。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论