当前位置：文江博客话题详情

如何在文本中搜索人名？（启发式）

发布于 2024-07-09 14:06:20 字数 697 浏览 13 评论 0原文

我有一个巨大的人名列表，我必须在巨大的文本中进行搜索。

文本中只能出现部分名称。并且可能存在拼写错误、打字错误或缩写。文本没有标记，因此我不知道文本中人名的开头位置。我不知道这个名字是否会出现在文本中。

示例：

我的列表中有“巴拉克·侯赛因·奥巴马”，因此我必须检查以下文本中是否出现该名字：

...候选人巴拉克·奥巴马是当选美国总统...（不完整）
...候选人巴拉克·侯赛因当选美国总统...（不完整）
...候选人巴拉克何当选美国总统...（缩写）
...候选人巴拉克·奥巴马当选美国总统...（拼写错误）
...候选人巴拉克·奥马玛当选美国总统...（打字错误，B在V旁边）
...候选人约翰·麦凯恩输掉了选举。 ..（没有出现奥巴马的名字）

当然没有确定性的解决方案，但是......

对于这种搜索来说，什么是好的启发式方法？

如果必须的话，你会怎么做？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦亿 2024-07-16 14:06:20

你说的是200页左右。

将其分成 200 个单页 PDF。

将每个页面以及姓名列表放在 Mechanical Turk 上。每页提供约 5 美元的奖励。

回复收藏 0 原文

愚人国度 2024-07-16 14:06:20

将所有内容拆分为空格，删除特殊字符（逗号、句点等）。然后使用类似 soundex 来处理拼写错误。或者，如果您需要搜索大量文档，您可以使用 lucene 之类的东西。

回复收藏 0 原文

单挑你×的.吻 2024-07-16 14:06:20

您想要的是一个自然语言处理库。您正在尝试识别专有名词的子集。如果名称是专有名词的主要来源，那么这会很容易，如果混有相当数量的其他专有名词，那就会更困难。如果您使用 JAVA 编写，请查看 OpenNLP 或 C# SharpNLP。提取所有专有名词后，您可能可以使用 Wordnet 删除大多数非名称专有名词。您也许可以使用 wordnet 来识别名称的子部分（例如“John”），然后搜索相邻的标记以吸收名称的其他部分。您可能会遇到诸如“John Smith Industries”之类的问题。您必须查看基础数据，看看是否有可以利用的功能来帮助缩小问题范围。

使用 NLP 解决方案是我见过的解决类似问题的唯一真正强大的技术。您可能仍然会遇到问题，因为 200 页实际上相当小。理想情况下，您将拥有更多文本并能够使用更多统计技术来帮助消除名称和非名称之间的歧义。

回复收藏 0 原文