关于一个网站的反爬虫问题

发布于 2022-09-11 14:51:26 字数 1766 浏览 17 评论 0

我现在遇到的这个网站,似乎是使用了distil networks这个反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回

<!DOCTYPE html>
<html>

<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?requestId=953a747e-5387-423c-b87d-1d44f55e846b&httpReferrer=%2Fbook%2FFlight%2FSelect%3Fculture%3Dzh-CN%26type%3D1%26dst1%3DCAN%26ast1%3DSIN%26dd%3D2018-10-05%26adt%3D1%26chd%3D0%26inf%3D0" />
<script type="text/javascript">
    (function(window){
        try {
            if (typeof sessionStorage !== 'undefined'){
                sessionStorage.setItem('distil_referrer', document.referrer);
            }
        } catch (e){}
    })(window);
</script>
<script type="text/javascript" src="/tgrairwaysdstl.js" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#cfcxdbattebszfeeswyw{display:none!important}</style></head>
<body>
<div id="distilIdentificationBlock">&nbsp;</div>
</body>
</html>

而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,我猜测其中的原因是因为我多次使用的P参数,虽然每次返回值都不一样,但是都不可用,p参数应该是只能使用一次的。希望这个问题能得到解答
图片描述

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

柠栀 2022-09-18 14:51:26

我也是在爬一个网站的时候遇到了distil networks, 我用一个浏览器框架成功加载到了网页,但是在获取网页元素的时候document.getElementById的时候返回的全是空,需要找个组织讨论一下怎么攻破这个东西

眼眸 2022-09-18 14:51:26

这个问题,我遇到了,不过,主要是301自动跳页问题,自动,不行,会被检测出来,手动跳页吧。我是手动跳解决了

十二 2022-09-18 14:51:26

关注一下,听说过distil这个东西,好像很厉害,建议可以试一下用Chrome Devtools Protocol,别的爬虫手段我感觉都有一些明显的特征

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文