当前位置：文江博客话题详情

Solr design-patterns nutch

使用 solr 索引 HTML

发布于 2024-10-31 05:02:43 字数 571 浏览 4 评论 0 原文

我正在使用 nutch 爬行我们的大型网站，然后使用 solr 进行索引，结果非常好。然而，网站上有几个菜单结构会索引并破坏查询结果。

这些菜单中的每一个都在 DIV 中明确定义，因此

...

或 ... 以及其他几个。

我需要在某个时候删除这些 DIVS 中的内容。

我猜测正确的位置是在 solr 索引期间，但无法弄清楚如何进行。

模式看起来像 (

).*?(<\/div>) 但我无法让它在 ).*?(<\/div>)" /> 我不太确定该放在哪里它在 schema.xml 中。

当我将该模式放入 schema.xml 时，不会解析。

我添加这一行以便编辑保持不变

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

可遇━不可求 2024-11-07 05:02:43

您是否看过 solr 中可用的 HTML 不同的 HTML 标记器？

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

他们应该帮助您解决这个问题。你不应该索引 html 标签本身。但是，如果您需要唯一标识某些标签，那么您将需要创建单独的字段并将这些特殊标签的内容存储在这些字段中。

回复收藏 0 原文

~没有更多了~

关于作者

愛放△進行李

暂无简介

文章

28 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

使用 solr 索引 HTML

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者