具有通配符支持的 Java robots.txt 解析器

发布于 2024-12-02 08:40:36 字数 434 浏览 1 评论 0 原文

我正在寻找 Java 中的 robots.txt 解析器,它支持相同的 模式匹配规则作为Googlebot。

我找到了一些解析 robots.txt 文件的库,但它们都不支持 Googlebot 风格的模式匹配:

有谁知道可以做到这一点的java库吗?

I'm looking for a robots.txt parser in Java, which supports the same pattern matching rules as the Googlebot.

I've found some librairies to parse robots.txt files, but none of them supports Googlebot-style pattern matching :

  • Heritrix (there is an open issue on this subject)
  • Crawler4j (looks like the same implementation as Heritrix)
  • jrobotx

Does anyone know of a java library that can do this ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

要走干脆点 2024-12-09 08:40:36

Nutch 似乎结合使用了 crawler-commons一些自定义代码(请参阅RobotsRulesParser.java)。不过,我不确定目前的情况。

特别是,问题 NUTCH-1455 看起来与您的需求非常相关:

如果 http.robots.agents 中配置的用户代理名称包含空格,即使完全包含在 robots.txt 中,它也不匹配
http.robots.agents =“下载忍者,*”

也许值得尝试/修补/提交修复:)

Nutch seems to be using a combination of crawler-commons with some custom code (see RobotsRulesParser.java). I'm not sure of the current state of afairs, though.

In particular, the issue NUTCH-1455 looks to be quite related to your needs:

If the user-agent name(s) configured in http.robots.agents contains spaces it is not matched even if is exactly contained in the robots.txt
http.robots.agents = "Download Ninja,*"

Perhaps its worth it to try/patch/submit the fix :)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文