- PaperWeekly 2016.08.05 第一期
- PaperWeekly 第二期
- PaperWeekly 第三期
- PaperWeekly 第四期 - 基于强化学习的文本生成技术
- PaperWeekly 第五期 - 从 Word2Vec 到 FastText
- PaperWeekly 第六期 - 机器阅读理解
- PaperWeekly 第七期 -- 基于 Char-level 的 NMT OOV 解决方案
- PaperWeekly 第八期 - Sigdial2016 文章精选(对话系统最新研究成果)
- PaperWeekly 第九期 -- 浅谈 GAN
- PaperWeekly 第十期
- PaperWeekly 第十一期
- PaperWeekly 第十二期 - 文本摘要
- PaperWeekly 第十三期--最新文章解读
- PaperWeekly 第十四期 - TTIC 在 QA 任务上的研究进展
- PaperWeekly 第十六期 - ICLR 2017 精选
- PaperWeekly 第十七期 - 无监督/半监督 NER
- PaperWeekly 第十八期 - 提高 seq2seq 方法所生成对话的流畅度和多样性
- PaperWeekly 第十九期 - 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)
- PaperWeekly 第二十期 - GAN(Generative Adversarial Nets)研究进展
- PaperWeekly 第二十一期 - 多模态机器翻译
- PaperWeekly 第二十二期 - Image Caption 任务综述
- PaperWeekly 第二十三期 - 机器写诗
- PaperWeekly 第二十四期 - GAN for NLP
- PaperWeekly 第二十五期 - 增强学习在 image caption 任务上的应用
- PaperWeekly 第二十六期 - 2016 年最值得读的 NLP paper 解读(3 篇)+在线 Chat 实录
- PaperWeekly 第二十七期 | VAE for NLP
- PaperWeekly 第 28 期 | 图像语义分割之特征整合和结构预测
- PaperWeekly 第 29 期 | 你的 Emoji 不一定是我的 Emoji
- PaperWeekly 第 30 期 | 解读 2016 年最值得读的三篇 NLP 论文 + 在线 Chat 实录
- PaperWeekly 第 31 期 | 远程监督在关系抽取中的应用
- PaperWeekly 第 32 期 | 基于知识图谱的问答系统关键技术研究 #01
- PaperWeekly 第 33 期 | 基于知识图谱的问答系统关键技术研究 #03
- PaperWeekly 第 34 期 | VAE 在 chatbot 中的应用
- PaperWeekly 第 35 期 | 如何让聊天机器人懂情感 PaperWeekly 第 35 期 | 如何让聊天机器人懂情感
- PaperWeekly 第 36 期 | Seq2Seq 有哪些不为人知的有趣应用?
- PaperWeekly 第 37 期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)
- PaperWeekly 第 38 期 | SQuAD 综述
- PaperWeekly 第 39 期 | 从 PM 到 GAN - LSTM 之父 Schmidhuber 横跨 22 年的怨念
- PaperWeekly 第 40 期 | 对话系统任务综述与基于 POMDP 的对话系统
- PaperWeekly 第 41 期 | 互怼的艺术:从零直达 WGAN-GP
- PaperWeekly 第 42 期 | 基于知识图谱的问答系统关键技术研究 #04
- PaperWeekly 第 43 期 | 教机器学习编程
- PaperWeekly 第 44 期 | Kaggle 求生
- PaperWeekly 第 45 期 | 词义的动态变迁
- PaperWeekly 第 46 期 | 关于远程监督,我们来推荐几篇值得读的论文
- PaperWeekly 第 47 期 | 开学啦!咱们来做完形填空:“讯飞杯”参赛历程
- 深度强化学习实战:Tensorflow 实现 DDPG - PaperWeekly 第 48 期
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第 49 期
- 从 2017 年顶会论文看 Attention Model - PaperWeekly 第 50 期
- 深入浅出看懂 AlphaGo Zero - PaperWeekly 第 51 期
- PaperWeekly 第 52 期 | 更别致的词向量模型:Simpler GloVe - Part 1
- PaperWeekly 第 53 期 | 更别致的词向量模型:Simpler GloVe - Part 2
- 基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
PaperWeekly 第十七期 - 无监督/半监督 NER
引言
命名实体识别是自然语言处理中一个非常基础的工作,是自然语言处理中关键的一个环节。监督学习是解决命名实体识别任务的一个基本手段,但标注数据的获取成本往往会比较高,本期 PaperWeekly 将带大家来看一下如何通过半监督或者无监督的方法来做命名实体识别任务。本期分享的 4 篇 Paper Notes 分别是:
1、Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre), 2016
2、ClusType: Effective Entity Recognition and Typing by Relation Phrase-Based Clustering, 2015
3、Bootstrapped Text-level Named Entity Recognition for Literature, 2016
4、Recognizing Named Entities in Tweets, 2011
Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre)
作者
Lifu Huang, Jonathan May, Xiaoman Pan, Heng Ji
单位
Rensselaer Polytechnic Institute,
Information Sciences Institute,
Rensselaer Polytechnic Institute
关键词
Entity Recognition and Typing, Unspuversied
文章来源
arXiv, 2016
问题
细粒度的实体识别是这几年比较流行的工作。传统的方法是需要先预定义一组实体所属类型,随后使用大量的标注数据来训练多分类器。本文针对需要标注数据的问题,提出了一个使用非监督学习的思路来解决这个问题
模型
本文中方法的架构如下图:
1)通过 entity mention 的语料,构建 entity mention 的 context
2)随后构建知识库的表达
3)通过知识库和 entity mention 进行连接
4)将连接后的数据学习三种表达
a general entity distributed representation
a specific context representation
a knowledge representation
其中 entity distributed representation 主要是通过上下文来表达实体,而 a specific context representation 主要是表达一些 local feature 和一些语言结构的特征,a knowledge representation 主要是用来模拟领域相关的知识。最后算法通过一个层次聚类算法来获取 entity mention 可能的分类信息
1、General Entity Representation
entity mention 的表达作者主要是用了 Skip-gram model 通过大量的语料来训练,最终可以得到每个 entity mention 的表达。这个思路的好处是让两个 entity mention 属于同一类型时,entity mention 的上下文会比较相似,进而可以得到相似的分布式表达
2、a specific context representation
为了得到 a specific context representation,本文使用 AMR((Abstract Meaning Representation)语法或者句法结构的上下文。
其生成的结构如下图所示。根据给定的 entity mention 以及对应关系,首先选择 entity mention 可能的类型,如关系为 ARG0 capital of ARG1 则 ARG0 可能的类型则为国家,同理 ARG1 可能的类型为城市。随后将所有 entity mention 可能的候选类型通过一个 encoder-decoder 模型得到一个单一的表达
3、Knowledge Representation
由于 entity mention 的类型在很多情况是非常依赖领域相关的知识库的。因此本文也对知识库进行建模,从而推断出在某个相关领域下更细粒度的实体。为例计算 Knowledge Representation,首先对 entity mention 跟知识库做连接。随后根据链接的实体和实体对应的属性以及类型信息构建一个基于权重的二步图。构建好的二步图根据 Large-scale information network embedding 算法来对这个二步图训练并得到其分布式表达。
最后对于一个 entity mention,将该 entity mention 对应的三种表达 General Entity Representation,a specific context representation 和 Knowledge Representation 整合,通过一个 hierarchical X-means clustering 算法得到这个 entity mention 在一个分类体系下的 type 信息。最终完成识别实体类型的信息。
简评
细粒度的实体识别是这几年比较流行的工作。传统的方法是需要先预定义一组实体所属类型,随后使用大量的标注数据来训练多分类器。这篇文章的创新点是提出了一个非监督学习的算法来识别实体所属的 type,这种非监督的方法在缺少标注数据的垂直领域具有一定的实用性。本文的思路主要是通过文章中的 entity mention 跟知识库进行连接,通过文章的上下文学习 entity mention 的分布式表达,同时通过学习知识库中实体和类型的分布式表达。最后将这些表达送入一个层次聚类算法,entity mention 得到的 embedding 和相似的知识库符号 embedding 会聚到同一个聚类下。进而通过非监督的方法对 entity mention 打上 type 的标签。实验证明本文的方法可以跟监督学习起到类似的效果。
ClusType: Effective Entity Recognition and Typing by Relation Phrase-Based Clustering
作者
Xiang Ren, Ahmed El-Kishky, Chi Wang, Fangbo Tao, Clare R. Voss, Heng Ji, Jiawei Han
单位
University of Illinois at Urbana-Champaign,
Microsoft Research, Redmond,
Rensselaer Polytechnic Institute,
Army Research Laboratory, Adelphi
关键词
Entity Recognition and Typing,
Relation Phrase Clustering
文章来源
KDD, 2015
问题
远程监督方法在特定领域的实体抽取方面存在领域扩展性差、实体歧义问题以及上下文稀缺三大问题,本文主要研究如何改进这三个问题。
模型
针对上述的三个问题,本文提出了各自对应的解决思路:只使用浅层的分析方法例如 POS 等解决领域独立性问题;对 entity mention(token span in the text document which refers to a real-world entity) 应用词形和上下文联合建模来解决歧义问题;挖掘 relation phrase 和 entity mention 的共现情况,利用 relation phrase 前后实体(主语和宾语)的类别来找到相同的关系,进而辅助实体类型的推断。基于上述的思路,本文提出了 ClusType 的方法。
ClusType 的问题定义如下:给定一个特定领域的文档集合,一个实体类型集合以及一个知识库,主要完成三个任务:第一,从文档集合中抽取出候选的 entity mention 集合;第二,将一部分 entity mention 链接到知识库,作为种子 entity mention 集合;第三,对于剩余未完成知识链接的 entity mention 集合,预测每一个 entity mention 的对应实体类别。
根据任务的定义,整个框架也分为三个部分,分别解决这三个任务。
本文方案的具体思路如下:
1、构建关系图
关系图的基本样式如下:
图当中的节点主要分为三种:entity mention, surface name, relation phrase.
图中的边的类型也有三种:entity mention 和 surface name 的关系、surface name 和 relation phrase 在语料中的共现情况、entity mention 和 entity mention 的关系,表现 entity mention 之间的相似程度。这三个关系均是通过邻接矩阵的形式表示。
关于三种要素的确定,relation phrase 的确定主要参考开放域抽取的方法,entity mention 的确定方法也比较简单:首先找到固定长度的一个频繁词串集;为集合中每一个词串计算两两之间的得分,得分越高证明越需要合并;在合并的过程中,利用贪心算法,从得分最高开始合并,直到所有得分均低于某一阈值。
2、种子集合的生成
这里利用了 dbpedia-spotlight 工具进行 entity mention 到知识库的映射,只选取置信度得分高于 0.8 的作为有效输出。
公式共分为三部分:
第一部分遵循实体关系共现假设:如果一个 surface name 经常在 relation phrase 前后出现,那么它的类型应该同 relation phrase 前后实体的类型相关。
第二部分遵循两个假设。
假设一:如果两个 relation phrase 相似,那么他们前后实体的类型也应该相似;
假设二:判断两个 relation phrase 相似的特征为词形、上下文和其前后实体的类型。
因此,第二部分的作用在于根据两个假设建模一个基于 joint non-negative matrix factorization 的 multi-view clustering.
第三部分就是建模 entity mention 对应实体类别、entity mention 之间的关系以及引入种子集合的监督,利用一个 entity mention 的 surface name 和 relation phrase 对应的关系类别推断关系类型,同时考虑到相似 entity mention 的一致性以及对于种子集合的预测误差函数。
相关工作
本文主要借鉴两方面的工作,一部分是远距离监督的方法,另一部分是开放关系抽取。
远距离监督的工作主要有:
1、N. Nakashole, T. Tylenda, and G. Weikum. Fine-grained semantic typing of emerging entities. In ACL, 2013.
2、T. Lin, O. Etzioni, et al. No noun phrase left behind: de- tecting and typing unlinkable entities. In EMNLP, 2012.
3、X. Ling and D. S. Weld. Fine-grained entity recognition. In AAAI, 2012.
开放关系抽取的工作主要有:
1、A. Fader, S. Soderland, and O. Etzioni. Identifying relations for open information extraction. In EMNLP, 2011.
简评
本文通过对于远程监督方法的缺陷分析,提出了一种基于关系短语的实体识别方法。同时,还提出了一个领域无关的生成 relation phrase 和 entity mention。通过将关系短语的聚类和实体类型的识别联合建模,可以在解决实体歧义和上下文问题上发挥很大的作用,而且可以根据 entity mention 的 surface name 和 relation phrase 预测关系类型。同时,我个人认为,将实体识别和关系识别进行联合建模可以起到一个相互促进的作用,而且可以很好的避免在这两个任务当中引入深度语法分析的工具如依存、句法分析等,减少误差积累和领域依赖性。未来两种任务结合依旧是一个很好的研究方向和热点。
Bootstrapped Text-level Named Entity Recognition for Literature
作者
Julian Brooke,Timothy Baldwin,Adam Hammond
单位
English and Comparative Literature San Diego State University
Computing and Information Systems The University of Melbourne
关键词
NER,Brown clustering,Text-level context classifier
文章来源
ACL2016
问题
在无标注数据的情况下,对 Literature 做命名实体识别
模型
模型主要分为四个部分:
1、Corpus preparation and segmentation
使用 GutenTag tool 对语料做基本的名称切分
2、Brown clustering
在预先切分好的预料上做 Brown clustering。根据 Brown clustering 的聚类中的每个类的 rank 值,将聚类结果分成三个类别(PERSON,LOCATION,catch- all category)并将其作为 Bootstrap 的种子进行训练。
3、Text-level context classifier
为了解决 Brown clustering 聚类结果可能出现的一些 confusion,引入了 Text-level context classifier 的思想。构建名称特征向量,将种子集数据放到 LR 模型中进行训练,得到分类模型。
4、Improved phrase classification
为解决模型对短语名词分类不准确问题,引入了改进的短语名称分类方法,在 LR 模型得到的 p(t|r) 值的基础上进一步对其优化得到修正的 p’(t|r) ,修正方法如下:
资源
1、dataset: https://www.gutenberg.org
2、GutenTag tool: http://www.projectgutentag.org
相关工作
在 Literature 上做 NER 任务的工作包括:
1、(He et al., 2013)character speech identification
2、(Bamman et al., 2014)analysis of characterization
3、(Vala et al., 2015)character identification
4、(Vala et al. 2015)character identification deal the multiple aliases of the same character problem
简评
本文的创新点在于,使用了无监督学习模型对特定领域(fiction) 知识做 NER,并取得了很好的效果。但是本文方法主要研究特定领域知识的 NER,因此本方法使用在跨领域跨语言的 NER 识别任务中并不能达到很好的效果,方法具有一定的局限性。
Recognizing Named Entities in Tweets
作者
Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming Zhou
单位
Harbin Institute of Technology,
Shanghai Jiao Tong University,
Microsoft Research Asia
关键词
Named Entity Recognition, Semi-Supervised Learning
文章来源
ACL, 2011
问题
如何建立一种半监督学习的模型对使用非正式语言的 tweet 进行命名实体识别?
模型
现有的分词、词性标注、NER 工具解决非正式语言占主导的 tweet 时常常会失效,得不到令人满意的结果,而 twitter 作为一种主流的社交媒体,有着丰富的语料和非常高的研究价值。本文以 tweet 为研究对象,提出了一种基于 bootstrapping 的半监督学习方案。
tweet 的 NER 任务包括四类实体:Person、Location、Organization 和 Product,标注方法用 BILOU 标注法,而没有用经典的 IOB 标注法。
本文方案的具体思路如下:
1、KNN 分类器
将 tweet 中的每个词用词袋模型表示,输入到 KNN 中得到一个分类标签,这个标签作为 CRF 标注时的输入。
2、CRF 标注器
NER 是一个典型的序列标注任务,CRF 是解决序列标注问题的一个典型方法。
3、训练过程:
(1)先根据已有标注数据,训练好初始的 KNN 和 CRF 模型。
(2)获得未标注的 tweet,每条 tweet 中的每个词都经过 KNN 分类器,得到一个分类标签和相应的概率,如果这个概率大于预设阈值,则更新这个标签给该词。整个 tweet 经过 KNN 之后,作为特征输入到 CRF 模型中进行预测,如果预测出的结果概率大于预设阈值,则认为该标注结果可靠,加入可靠结果集中。
(3)当可靠结果集的数量达到 N=1000 时,则重新训练 KNN 和 CRF 模型,并且清空可靠结果集,继续(2)的过程。
相关工作
基于 bootstrapping 做 NER 任务的工作还包括:
1、Instance weighting for domain adaptation in nlp, 2007
2、Domain adaption bootstrapping for named entity recognition, 2009
简评
本文是比较早的文章了,算是比较早地探索 tweet 文本挖掘。bootstrapping 是一种经典的半监督学习方法,通过从大量的非标注文本中进行学习和补充,来提高训练数据集的规模。tweet 是一种非正式语言的文本,现有的 NLP 工具基本上都不好用,包括微博、论坛的文本都面临这样的问题,而且这样的文本占据着更大的比重,非常有必要对类似的文本进行 NLP 工具的研究,大概想了两种思路,要么专门地来研究一套适合这种非正式文本的工具,要么想办法将这样的文本转化为正式的语言,用现有的工具来解决问题。现在很火的 chatbot 对话理解也面临这样的问题,大家在和 bot 对话的时候说的话也是类似的非正式语言,如何准确理解和分析这类话,对于 chatbot 能否真的被应用至关重要。
总结
NER 的应用场景非常广泛,基于监督学习的训练方法是最简单、最有效的方法,但在实际应用中常常会遇到训练数据难以获得的尴尬境地,那么半监督和无监督学习的研究正是为了解决这个问题,值得关注!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论