爬虫卡在 Drupal 中的强制年龄检查页面上

发布于 2024-08-03 03:41:01 字数 507 浏览 13 评论 0原文

我们在 drupal 中构建了一个大型社区网站，该网站在您访问网站内容之前必须进行年龄检查，

它会检查 cookie 是否存在，如果不存在，您将被重定向到年龄检查页面。

现在我们相信爬虫程序会卡在这部分，它们会被重定向到年龄检查，并且永远无法爬行整个网站。

有人以前有过这个吗？处理这样的事情最好的方法是什么？

桑德

编辑

我很抱歉现在才提到这一点，爬虫的问题之一还在于，当社区中的某人在 Facebook 上的墙上发布内容时，Facebook 会爬回页面以获取图像和描述（在元标记中指定）但 Facebook 也被重定向到年龄检查页面。如果我添加 facebook 爬虫，useragentcheck 会工作吗？如果是这样：那么有人知道 Facebook 爬虫的确切名称吗？

下面的解决方案是我们也在网上找到的解决方案。如果将 facebook 爬虫添加到该列表中有效，那么它将解决我们在这个年龄检查页面上遇到的所有问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

伊面 2024-08-10 03:41:01

您可以检查用户代理，如果它是爬虫，则不会检查浏览器/用户是否具有所需的 cookie。

这里是一个示例：

function crawlerDetect($USER_AGENT)
{
    $crawlers_agents = ‘Google|msnbot|Rambler|Yahoo|AbachoBOT|accoona|AcioRobot|ASPSeek|CocoCrawler|Dumbot|FAST-WebCrawler|GeonaBot|Gigabot|Lycos|MSRBOT|Scooter|AltaVista|IDBot|eStyle|Scrubby’;

    if ( strpos($crawlers_agents , $USER_AGENT) === false )
       return false;
}

// example

$crawler = crawlerDetect($_SERVER[’HTTP_USER_AGENT’]);

if ($crawler )
{
   // it is crawler, it’s name in $crawler variable
}
else
{
   // usual visitor
}

You could check the user-agent, and if it's a crawler you do not check if the browser/user has the required cookie.

Here is a sample:

function crawlerDetect($USER_AGENT)
{
    $crawlers_agents = ‘Google|msnbot|Rambler|Yahoo|AbachoBOT|accoona|AcioRobot|ASPSeek|CocoCrawler|Dumbot|FAST-WebCrawler|GeonaBot|Gigabot|Lycos|MSRBOT|Scooter|AltaVista|IDBot|eStyle|Scrubby’;

    if ( strpos($crawlers_agents , $USER_AGENT) === false )
       return false;
}

// example

$crawler = crawlerDetect($_SERVER[’HTTP_USER_AGENT’]);

if ($crawler )
{
   // it is crawler, it’s name in $crawler variable
}
else
{
   // usual visitor
}

回复收藏 0 原文