如何避免被采集网站?

发布于 2022-09-01 12:53:54 字数 175 浏览 20 评论 0

图片描述

连续几周如此,联通电信会变,每次访问ip会变,访问时间0,频率很高,地区不变,是不是有人采集我的站?如何避免?谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

毁梦 2022-09-08 12:53:54

1、采用动态不规则的html标签
2、限制IP

和搜索引擎没有矛盾的,完全可以用nginx判断是否是搜索引擎爬虫,指引到一个固定的html结构的里边,以前就这样做过

梦里寻她 2022-09-08 12:53:54

避免是很难的,只能说尽量提高抓取的成本。

常见都是在nginx或者程序中加入频率限制(rate limit)

も星光 2022-09-08 12:53:54

在robots.txt中添加屏蔽抓取的策略,就能少被采集了

灼疼热情 2022-09-08 12:53:54

关键是你又希望搜索引擎来爬你;

所以这是矛盾的,

只能尽量做好;

你曾走过我的故事 2022-09-08 12:53:54

you can't.

苦行僧 2022-09-08 12:53:54

楼上都没答到点子上,一般采集无非就是用硬抓取,如file_get_contents,和模拟抓取,如casperjs,我曾经用casperjs来写爬虫,速度实在太慢,所以casperjs爬虫不太可行,如果只是像file_get_contents之类的,后台分析日志,凡是加载的网页没有加载对应的css和js文件的,全部ban掉
希望写小偷程序的人不要看到这个答案,要不除了限制请求频率根本没法了,哦忘了,我就是专门写小偷程序的

夜血缘 2022-09-08 12:53:54

cnzz统计的问题,加个谷歌统计对比下,流量差距就出来了,有10倍左右,猜测应该是百度蜘蛛之类的,识别为用户了,我的展也这样

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文