当前位置：文江博客话题详情

如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序？

发布于 2024-11-02 18:57:01 字数 300 浏览 0 评论 0原文

我想限制爬虫程序访问 Heroku 上运行的 Rails 应用程序。如果我使用 Apache 或 nginX，这将是一项直接的任务。由于该应用程序部署在 Heroku 上，我不确定如何限制 HTTP 服务器级别的访问。

我尝试使用 robots.txt 文件，但有问题的爬虫不尊重 robots.txt。

这些是我正在考虑的解决方案：

1）rails 层中的 before_filter 来限制访问。

2）基于机架的解决方案来限制访问

我想知道是否有更好的方法来处理这个问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

箜明 2024-11-09 18:57:01

我读过有关蜜罐解决方案的内容：您有一个不得抓取的 URI（将其放入 robots.txt）。如果任何 IP 调用此 URI，则阻止它。我将其实现为 Rack 中间件，这样命中就不会进入完整的 Rails 堆栈。

抱歉，我用谷歌搜索但找不到原始文章。

回复收藏 0 原文

~没有更多了~

关于作者

如歌彻婉言

暂无简介

0 文章

0 评论

23 人气

关注发私信

烙印

文章 0 评论 0

关注

singlesman

文章 0 评论 0

关注

给自己一个微笑

文章 0 评论 0

关注

独孤求败

文章 0 评论 0

关注

晨钟暮鼓

文章 0 评论 0

关注

我是自愿种绣球花的

文章 0 评论 0

友情链接

文江博客

如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者