当前位置：文江博客话题详情

security screen-scraping

如何防止抓取网页上的某些数据？

发布于 2024-07-14 10:10:38 字数 111 浏览 6 评论 0原文

我只想保护每个请求后显示的某些号码。这样的数字大约有30个。我计划在这些数字的位置生成图像，但如果图像不像验证码那样扭曲，脚本是否能够破译该数字？另外，加载图像与加载文本相比会对性能造成多大影响？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（15）

平生欢 2024-07-21 10:10:38

确保坏人不会获取您的数据的唯一方法是不与任何人共享。任何其他解决方案本质上都是与屏幕抓取工具进行军备竞赛。在某一时刻，你们中的一个人会发现军备竞赛代价太大，无法继续下去。如果您共享的数据具有任何可感知的价值，那么屏幕抓取者可能会非常坚定。

回复收藏 0 原文

痴意少年 2024-07-21 10:10:38

这是不可能的。

您使用 javascript 并加密页面，解密后使用 document.write() 调用。我要么从浏览器的显示中抓取数据，要么通过 JS 引擎提供页面来获取输出。
你用的是闪存。我可以查看闪存文件并获取值。您在闪存中对它们进行加密，我可以运行它，然后从解释器的显示中获取输出作为图像序列。
你使用图像，我可以通过 OCR 提供它们。

你们正在进行军备竞赛。您需要做的是让您的信息如此有用，您的页面如此易于使用，从而成为权威来源。定期更改输出格式以跟上进度也很方便，但屏幕抓取工具可以处理此问题，除非您进行相当彻底的更改。彻底的改变会让用户离开，因为他们对这个页面一直不熟悉。

您的图像解决方案不会有太大帮助，并且图像的效率要低得多。在 HTML 编码中，数字通常只有几个字节长。图像从几百字节开始，根据您想要的大小扩展到 1k 或更多。图像也不会以用户为其浏览器窗口选择的字体呈现，并且对于使用辅助计算设备的人（视障人士）来说毫无用处。

回复收藏 0 原文

夏末 2024-07-21 10:10:38

除了图像之外，您还可以使用 JavaScript 或 Flash 显示数字。

您还可以使用 CSS 通过绝对或相对位置的各种组合来定位各个数字。
您还可以使用 JavaScript 来帮助您创建这些 DIV。
重点是要足够混淆，让它变得非常困难。

另一种解决方案是使用分段或单个点的图像，并使用 CSS 重新构建数字的图像，有点像点阵显示。
您可以用这些绝对定位的 DIV 来散布页面的源代码，并再次通过动态创建它们来使重建变得更加困难。

无论如何，您无法阻止坚定的抓取者获取数据：自动化网络浏览器并截取可以输入 OCR 的屏幕截图并不需要花费太多时间。
无论如何，任何人都不需要付给某人几分钱来手动获取数据。

重点是：你的对手（用户？）的决心有多大。
这有点像软件保护业务：让事情变得足够困难以阻止偶然的“盗版”并不太难，而且总的来说这是一个相当好的方法。

但是，如果您提供的数据很有价值，那么您实际上无法采取任何措施来保护它。
你所能做的一切都让它变得足够困难，以至于偶然的“小偷”宁愿继续为你的服务付费，而不是规避它。

回复收藏 0 原文

黑凤梨 2024-07-21 10:10:38

Javascript 可能是最容易实现的，但是你可以发挥真正的创意，通过在无效数字上放置图层、将错误的数字混合到背景中或通过 css 使它们不可见，可以拥有大块数字，其中某些数字是可见的和半随机生成的类名。

回复收藏 0 原文

唔猫 2024-07-21 10:10:38

我不敢相信我正在推广一种常见的恶意软件脚本策略，但是......

您可以将数字编码为在运行时呈现的编码 Javascript。

回复收藏 0 原文

笨死的猪 2024-07-21 10:10:38

生成包含这些数字的图像并显示该图像。 :-)

回复收藏 0 原文

忘年祭陌 2024-07-21 10:10:38

我认为你们对这些解决方案过于敏感。 Javascript、Capcha、甚至诉讼和 DMCA 流程都无法解决网络抓取和数据盗窃的复杂适应性问题。您不认为防止恶意机器人和网站抓取的“理想”解决方案应该是实时主动缓解策略吗？与内容保护网络非常相似。就说吧。

示例：

IBM - IBM ISS 数据安全服务

DISTIL - www.distil.it

回复收藏 0 原文

蓝眼泪 2024-07-21 10:10:38

您能提供更多关于您正在做什么的细节吗？当然，创建图像而不是转储数字文本会对性能造成影响，但是您每天这样做的频率是多少？

使用 JavaScript 与使用文本相同。逆向工程很简单。

回复收藏 0 原文

二货你真萌 2024-07-21 10:10:38

使用 Flash 使用动画数字。它可能不是万无一失的，但它会使其更难破解。

回复收藏 0 原文

救赎№ 2024-07-21 10:10:38

发布大量虚拟数字并使用外部 CSS 显示正确的数字怎么样？只要抓取工具不开始解析外部 CSS 即可。

回复收藏 0 原文

ぃ双果 2024-07-21 10:10:38

不要输出数字，即前缀

echo $secretNumber;

为//。

Don't output the numbers, i.e. prefix

echo $secretNumber;

with //.

回复收藏 0 原文

帅气尐潴 2024-07-21 10:10:38

对于所有建议使用 Javascript 或 CSS 来混淆数字的人来说，可能有一种解决方法。 Firefox 有一个名为 abduction 的插件。基本上它的作用是将页面作为图像保存到文件中。您可以修改此插件来保存图像，然后分析图像以找出试图隐藏的秘密号码。

基本上，如果有足够的动机从页面上删除这些数字，那么就会完成。否则，只需发布一个常规号码，让您的用户更轻松，这样他们就不必太担心无法复制和粘贴该号码，或由于这种欺骗而导致的其他此类问题。

回复收藏 0 原文

日裸衫吸 2024-07-21 10:10:38

只是用 CSS 盒子模型做一些意想不到的和奇怪的（每次都不同）的事情。强迫他们实际使用浏览器支持的屏幕截图。

回复收藏 0 原文

享受孤独 2024-07-21 10:10:38

我认为这是不可能的，你可以让他们的工作变得更加困难（按照这里建议的方式使用图像），但这就是你所能做的，如果你不想，你无法阻止一个坚定的人获取数据他们来抓取你的数据，不要发布它，就这么简单......

回复收藏 0 原文

私藏温柔 2024-07-21 10:10:38

假设这些数字经常更新（如果不更新，那么保护它们完全没有意义，因为人类只能手动转录它们），您可以通过限制来限制自动抓取。自动化脚本必须经常访问您的网站来检查更新，如果您可以限制您赢得的这些检查，而无需诉诸混淆。

有关限制的指示，请参阅这个问题。

回复收藏 0 原文

~没有更多了~

关于作者

漆黑的白昼

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

linfzu01

文章 0 评论 0

§对你不离不弃

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文