使用 nutch+solr 识别文档中的字符串？

发布于 2024-09-14 10:30:19 字数 293 浏览 8 评论 0原文

我正在研究一种搜索解决方案，该解决方案将识别字符串（公司名称）并使用这些字符串在 Solr 中进行搜索和构面。

我是 Nutch 和 Solr 的新手，所以我想知道这是否最好在 Nutch 或 Solr 中完成。一种解决方案是在 Nutch 中生成一个解析器，用于识别有问题的字符串，然后对公司名称进行索引，然后映射到 Solr 值。我不确定如何操作，但我想这也可以直接从文本在 Solr 内部完成？

在 Nutch 或 Solr 中进行此字符串识别是否有意义？Solr 或 Nutch 中是否有一些功能可以帮助我？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

丑丑阿 2024-09-21 10:30:19

您可以将 NER 库（请参阅 opennlp、lingpipe、gate）嵌入到自定义解析器中，生成新字段并相应地创建索引过滤器。这并不是特别困难，与在 SOLR 方面执行此操作相比，优点是您可以从 MapReduce 的可扩展性中获益（NLP 任务通常需要 CPU 资源）。
有关如何在 MapReduce 中嵌入 GATE 的示例，请参阅 Behemoth

回复收藏 0 原文

裸钻 2024-09-21 10:30:19

Nutch 与 Solr 配合使用，通过 Solr HTTP API 将爬取的数据索引到 Solr。您可以通过调用 solrindex 命令来触发索引。有关如何设置的详细信息，请参阅此页面。

为了能够提取公司名称，我将在 Solr 中添加必要的代码。我会使用 UpdateRequestProcessor。它允许在索引过程中添加额外的步骤，以在正在索引的文档中添加额外的字段。您的 UpdateRequestProcessor 将用于检查由 Nutch 发送到 Solr 的文档，从文本中提取公司名称并将它们添加为文档中的新字段。 Solr 会索引文档+您添加的字段。

回复收藏 0 原文

~没有更多了~