如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序?
我想限制爬虫程序访问 Heroku 上运行的 Rails 应用程序。如果我使用 Apache 或 nginX,这将是一项直接的任务。由于该应用程序部署在 Heroku 上,我不确定如何限制 HTTP 服务器级别的访问。
我尝试使用 robots.txt 文件,但有问题的爬虫不尊重 robots.txt。
这些是我正在考虑的解决方案:
1)rails 层中的 before_filter
来限制访问。
2)基于机架的解决方案来限制访问
我想知道是否有更好的方法来处理这个问题。
I want to restrict the crawler access to my rails app running on Heroku. This would have been a straight forward task if I was using Apache OR nginX. Since the app is deployed on Heroku I am not sure how I can restrict access at the HTTP server level.
I have tried to use robots.txt file, but the offending crawlers don't honor robot.txt.
These are the solutions I am considering:
1) A before_filter
in the rails layer to restrict access.
2) Rack based solution to restrict access
I am wondering if there are any better ways to deal with this problem.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我读过有关蜜罐解决方案的内容:您有一个不得抓取的 URI(将其放入 robots.txt)。如果任何 IP 调用此 URI,则阻止它。我将其实现为 Rack 中间件,这样命中就不会进入完整的 Rails 堆栈。
抱歉,我用谷歌搜索但找不到原始文章。
I have read about honeypot solutions: You have one URI that must not be crawled (put it in robots.txt). If any IP calls this URI, block it. I'd implement it as a Rack middleware so the hit does not go to the full Rails stack.
Sorry, I googled around but could not find the original article.