如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序?

发布于 2024-11-02 18:57:01 字数 300 浏览 0 评论 0原文

我想限制爬虫程序访问 Heroku 上运行的 Rails 应用程序。如果我使用 Apache 或 nginX,这将是一项直接的任务。由于该应用程序部署在 Heroku 上,我不确定如何限制 HTTP 服务器级别的访问。

我尝试使用 robots.txt 文件,但有问题的爬虫不尊重 robots.txt。

这些是我正在考虑的解决方案:

1)rails 层中的 before_filter 来限制访问。

2)基于机架的解决方案来限制访问

我想知道是否有更好的方法来处理这个问题。

I want to restrict the crawler access to my rails app running on Heroku. This would have been a straight forward task if I was using Apache OR nginX. Since the app is deployed on Heroku I am not sure how I can restrict access at the HTTP server level.

I have tried to use robots.txt file, but the offending crawlers don't honor robot.txt.

These are the solutions I am considering:

1) A before_filter in the rails layer to restrict access.

2) Rack based solution to restrict access

I am wondering if there are any better ways to deal with this problem.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

箜明 2024-11-09 18:57:01

我读过有关蜜罐解决方案的内容:您有一个不得抓取的 URI(将其放入 robots.txt)。如果任何 IP 调用此 URI,则阻止它。我将其实现为 Rack 中间件,这样命中就不会进入完整的 Rails 堆栈。

抱歉,我用谷歌搜索但找不到原始文章。

I have read about honeypot solutions: You have one URI that must not be crawled (put it in robots.txt). If any IP calls this URI, block it. I'd implement it as a Rack middleware so the hit does not go to the full Rails stack.

Sorry, I googled around but could not find the original article.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文