当前位置：文江博客话题详情

Lucene named-entity-extraction

如何在 Lucene 中进行实体提取

发布于 2024-10-05 05:41:11 字数 861 浏览 15 评论 0 原文

我正在尝试在 Lucene 中进行实体提取（更像是匹配）。以下是一个示例工作流程：

给定一些文本（来自 URL）和人员姓名列表，尝试从文本中提取人员姓名。

注意：

人名不完整标准化。例如，有些是 X 先生、X 女士。 Y 和一些人就是 John Doe、X 和 Y。其他需要考虑的前缀和后缀关于是 Jr.、Sr.、Dr.、I、II ... 等等（不要让我开始非美国名字）。

我正在使用 Lucene MemoryIndex 创建每个 Url 中文本的内存索引（剥离 html 标签），并使用 StandardAnalyzer 查询所有名称的列表，其中一个位于一次（100k 个名字，还有其他方法可以做到这一点吗？平均来说，这需要大约 8 秒。我的平均文本）。

一个主要问题是，为了消除噪音，我使用 0.01 的分数作为基本分数，如果文本包含“John Doe”并且在许多情况都未达到 0.01 阈值。

另一个问题是，如果我规范化所有名称并开始删除所有出现的 Dr. Mr. Mrs. 等，那么我就会开始错过像“Dr. John Edward II”这样的好匹配，并最终得到很多像“Mr. Mr. Mrs.”这样的垃圾匹配。约翰·爱德华”。

我知道 Lucene 可能也不是适合这项工作的工具，但到目前为止，它还没有被证明太糟糕。任何帮助表示赞赏。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绿光 2024-10-12 05:41:11

NEE 是一个 NLP 任务，不是 lucene 的一部分。对于开源的，可以看看lingpipe和gate以及opennlp。有多种省钱的选择。

GATE 完全基于规则，很难用于高精度。为此，您需要一个统计引擎； lingpipe 有一个，但是你必须提供训练数据。我不了解 opennlp 在该领域的最新内容。

回复收藏 0 原文

甜中书 2024-10-12 05:41:11

消除人名的歧义是出了名的困难。如果您有其他信息，例如位置或名称的共现，这将很有价值。但在作者消歧方面仍有大量工作要做，通常不能仅通过姓名列表来解决。

这是一个典型的项目 http://code.google.com/p/bibapp/wiki/作者权威。以及典型的出版物 http://www.springerlink.com/content/lk07h1m311t130w4/。

这是一个关于记录重复数据删除的项目，我们发现它对于作者消歧很有用 http://datamining.anu .edu.au/projects/linkage.html

回复收藏 0 原文

喜爱皱眉﹌ 2024-10-12 05:41:11

这些项目可能对您有用：

http://nlp.stanford.edu/ner/index.shtml

http://cogcomp.cs.illinois.edu/page/software_view/4

回复收藏 0 原文

苦笑流年记忆 2024-10-12 05:41:11

OpenNPL 很有用。 http://opennlp.apache.org/

该站点有文档和示例。

对于完全没有经验的人
《驯服文本》一书：http://www.manning.com/ingersoll/ 提供了很好的概述。您还可以从上面的链接下载本书的源代码。

回复收藏 0 原文

看海 2024-10-12 05:41:11

你可以试试这个..
http://alias-i.com/lingpipe/demos/tutorial /ne/read-me.html

文档很清楚，您也可以使用 DBPedia-Spotlight webservice...

http://spotlight.dbpedia.org/rest/spot/?text=

回复收藏 0 原文

~没有更多了~

关于作者

愛上了

暂无简介

文章

29 人气

关注发私信

友情链接

文江博客

如何在 Lucene 中进行实体提取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

如何在 Lucene 中进行实体提取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。