具有通配符支持的 Java robots.txt 解析器
我正在寻找 Java 中的 robots.txt 解析器,它支持相同的 模式匹配规则作为Googlebot。
我找到了一些解析 robots.txt 文件的库,但它们都不支持 Googlebot 风格的模式匹配:
- Heritrix(有一个 关于这个主题的开放问题)
- Crawler4j(看起来与Heritrix相同的实现)
- jrobotx
有谁知道可以做到这一点的java库吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Nutch 似乎结合使用了 crawler-commons 和 一些自定义代码(请参阅RobotsRulesParser.java)。不过,我不确定目前的情况。
特别是,问题 NUTCH-1455 看起来与您的需求非常相关:
也许值得尝试/修补/提交修复:)
Nutch seems to be using a combination of crawler-commons with some custom code (see RobotsRulesParser.java). I'm not sure of the current state of afairs, though.
In particular, the issue NUTCH-1455 looks to be quite related to your needs:
Perhaps its worth it to try/patch/submit the fix :)