当前位置：文江博客话题详情

web-crawler spam-prevention

防止网站数据被抓取和窃取

发布于 2024-07-07 13:23:42 字数 189 浏览 12 评论 0原文

我正在考虑构建一个可能包含数千个不同条目的内容网站，可以通过索引和搜索进行访问。

我可以采取哪些措施来防止恶意抓取工具窃取我网站上的所有数据？我不太担心搜索引擎优化，尽管我不想完全阻止合法的爬虫。

例如，我考虑过随机更改用于显示数据的 HTML 结构的一小部分，但我想这不会真正有效。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（12）

抹茶夏天i‖ 2024-07-14 13:23:42

理论上，人眼可见的任何网站都可能被撕裂。如果您甚至想尝试访问，那么根据定义，必须就是这种情况（如果您的内容不是机器可读的，那么语言浏览器将如何能够提供您的内容）。

最好的选择是考虑为您的内容添加水印，这样至少如果它确实被撕毁，您可以指向水印并声明所有权。

回复收藏 0 原文

薄暮涼年 2024-07-14 13:23:42

在此之间：

我可以采取哪些措施来防止恶意爬虫抓取

，这：

我不想一起阻止合法的爬虫。

你要求很多。事实是，如果您要尝试阻止恶意抓取工具，那么您最终也会阻止所有“好”爬虫。

您必须记住，如果人们想要抓取您的内容，他们将比搜索引擎机器人投入更多的手动工作......因此，请确定您的优先级。你有两个选择：

让互联网上的农民窃取你的内容。请密切关注（在 Google 中搜索一些更独特的短语）并向 ISP 发送删除请求。除了时间之外，这个选择对你几乎没有任何影响。
使用 AJAX 和滚动加密从服务器请求所有内容。您需要保持方法的变化，甚至是随机的，以便每个页面加载都带有不同的加密方案。但即使这个也会，如果有人想破解它的话。您还会降低搜索引擎的形象，从而影响真实用户的流量。

回复收藏 0 原文

好菇凉咱不稀罕他 2024-07-14 13:23:42

好的爬虫会遵循您在 robots.txt 中指定的规则，而恶意爬虫则不会。
您可以为坏机器人设置一个“陷阱”，如下所示：
http://www.fleiner.com/bots/。
但话又说回来，如果你把你的内容放在互联网上，我认为如果尽可能轻松地找到它对每个人都更好（事实上，你在这里发帖，而不是在一些专家交流的蹩脚论坛上） em>他们的意见）

回复收藏 0 原文

无名指的心愿 2024-07-14 13:23:42

实际上，您无法阻止恶意爬虫 - 并且您为防止它们而采取的任何措施都可能会伤害您的合法用户（除了可能向 robots.txt 添加条目以允许检测之外），

因此您要做的就是计划内容被盗（很可能以一种或另一种形式发生），并了解您将如何处理未经授权的复制。

预防是不可能的——而且尝试预防也是浪费时间。

确保网站上的内容不易被复制的唯一可靠方法是拔掉网络电缆...

要检测它，请使用类似 http://www.copyscape.com/ 可能会有所帮助。

回复收藏 0 原文

演多会厌 2024-07-14 13:23:42

甚至不要试图在网络上设置限制！

事情确实就是这么简单。

每一个阻止翻录的潜在措施（除了非常严格的 robots.txt 之外）都会伤害您的用户。验证码弊大于利。检查用户代理可以阻止意外的浏览器。对于 JavaScript 的“聪明”技巧来说也是如此。

请保持网络开放。如果您不希望从您的网站上获取任何内容，请不要在那里发布。水印可以帮助您声明所有权，但这仅在您在造成损害后想要起诉时才有用。

回复收藏 0 原文

蹲墙角沉默 2024-07-14 13:23:42

阻止网站被机器破解的唯一方法是让用户证明他们是人类。

您可以让用户执行一项对人类来说容易而对机器来说困难的任务，例如：CAPTCHA。当用户第一次访问您的网站时，请出示验证码，并仅在验证完成后才允许他们继续。如果用户开始过快地从一个页面移动到另一个页面，请重新验证。

这并不是 100% 有效，黑客总是试图破解它们。

或者，你也可以做出缓慢的反应。你不需要让它们爬行，但要选择一个对人类来说合理的速度（这对机器来说会非常慢）。这只会使他们花费更长的时间来抓取您的网站，但并非不可能。

好的。没主意了。

回复收藏 0 原文

五里雾 2024-07-14 13:23:42

简而言之：你无法阻止撕裂。恶意机器人通常使用 IE 用户代理，并且现在相当智能。如果您想让您的网站被最大数量的人（即屏幕阅读器等）访问，您不能使用 javascript 或流行的插件之一（flash），因为它们会禁止合法用户的访问。

也许你可以有一个 cron 作业，从你的数据库中随机挑选一个片段，并用谷歌搜索它来检查是否匹配。然后，您可以尝试控制违规网站并要求他们删除内容。

您还可以监控来自给定 IP 的请求数量，并在超过阈值时阻止它，尽管您可能必须将合法机器人列入白名单，并且对僵尸网络没有用处（但如果您面对僵尸网络，也许破解是不是你最大的问题）。

回复收藏 0 原文

难忘№最初的完美 2024-07-14 13:23:42

如果你要建立一个公共网站，那就非常困难。有些方法涉及服务器端脚本来生成内容或使用非文本（Flash 等）来最大限度地减少翻录的可能性。

但说实话，如果您认为您的内容非常好，只需用密码保护它并将其从公共领域删除即可。

我的观点是，网络的全部意义在于向尽可能多的人传播有用的内容。

回复收藏 0 原文

枕花眠 2024-07-14 13:23:42

如果内容是公开的并且免费提供，即使有页面视图限制或其他什么，你也无能为力。如果您需要注册和/或付款才能访问数据，您可能会对其进行一些限制，至少您可以看到谁读取了哪些内容并识别出似乎正在抓取整个数据库的用户。

然而我认为你应该面对这样一个事实：这就是网络的工作原理，没有太多方法可以阻止机器读取人类可以读取的内容。将所有内容输出为图像当然会令人沮丧，但随后该网站将无法再访问，更不用说即使是非残疾用户也无法复制粘贴任何内容 - 这真的很烦人。

总而言之，这听起来像是 DRM/游戏保护系统——让你的合法用户生气，只是为了防止一些你无论如何都无法真正阻止的不良行为。

回复收藏 0 原文

一指流沙 2024-07-14 13:23:42

您可以尝试使用Flash / Silverlight / Java来显示所有页面内容。这可能会阻止大多数爬虫的前进。

回复收藏 0 原文

蓝咒 2024-07-14 13:23:42

我曾经有一个系统会根据用户代理标头阻止或允许。
它依赖于爬虫设置其用户代理，但似乎大多数爬虫都这样做。

当然，如果他们使用假标头来模拟流行的浏览器，那么它就不起作用。

回复收藏 0 原文

疑心病 2024-07-14 13:23:42

尽可能使用人工验证器并尝试使用某种框架（MVC）。网站抓取软件有时无法抓取此类页面。还要检测用户代理，至少会减少可能的破解者数量

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

╰ゝ天使的微笑

文章 0 评论 0

少女净妖师

文章 0 评论 0

朱洁

文章 0 评论 0

觉浅

文章 0 评论 0

滥情空心

文章 0 评论 0

hl1314520

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文