识别搜索引擎爬虫

发布于 2024-09-19 04:34:01 字数 161 浏览 7 评论 0原文

我正在开发一个通过 AJAX 加载数据的网站。我还希望整个网站可以被谷歌和雅虎等搜索引擎抓取。我想制作该网站的 2 个版本... [1] 当用户到来时，超链接应该像 GMAIL 一样工作（#'ed 超链接） [2] 当爬虫出现时，超链接应该正常工作（AJAX 模式关闭）

我如何识别爬虫？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倥絔 2024-09-26 04:34:01

爬虫通常可以通过 User-Agent HTTP 标头来识别。请查看此页面，获取专门用于爬虫的用户代理列表。一些示例是：

Google：

Mozilla/5.0（兼容；Googlebot/2.1；+http://www.google .com/bot.html)
Googlebot/2.1 (+http://www.googlebot. com/bot.html)
Googlebot/2.1 (+http://www.google.com /bot.html）

此外，这里还有一些获取各种语言的用户代理字符串的示例：

PHP:
$_SERVER['HTTP_USER_AGENT']

Python Django:
request.META["HTTP_USER_AGENT"]

Ruby On Rails:
request.env["HTTP_USER_AGENT"]

...

Crawlers can usually be identified with the User-Agent HTTP Header. Look at this page for a list of user agents for crawlers specifically. Some examples are:

Google:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)

Also, here are some examples for getting the user agent string in various languages:

PHP:
$_SERVER['HTTP_USER_AGENT']

Python Django:
request.META["HTTP_USER_AGENT"]

Ruby On Rails:
request.env["HTTP_USER_AGENT"]

...

回复收藏 0 原文

忆离笙 2024-09-26 04:34:01

您不应向用户和爬虫展示不同形式的网站。如果谷歌发现您这样做，他们可能会因此降低您的搜索排名。另外，如果您有一个仅适用于爬虫的版本，它可能会在您不注意的情况下崩溃，从而为搜索引擎提供错误的数据。

我的建议是构建一个不需要 AJAX 的网站版本，并在每个页面上都有指向非 AJAX 版本的显着链接。这也将帮助那些可能不喜欢 AJAX 版本或浏览器无法正确处理它的用户。

回复收藏 0 原文

花海 2024-09-26 04:34:01

爬虫的http标头应包含User-Agent字段。您可以在您的服务器上检查此字段。

这里是大量用户代理的列表。一些例子：

Google robot 66.249.64.XXX ->
Googlebot/2.1 ( http://www.googlebot.com/bot.html)       

Harvest-NG web crawler used by search.yahoo.com 
Harvest-NG/1.0.2

The http headers of the crawler should contain a User-Agent field. You can check this field on your server.

Here is a list of TONS of User-Agents. Some examples:

Google robot 66.249.64.XXX ->
Googlebot/2.1 ( http://www.googlebot.com/bot.html)       

Harvest-NG web crawler used by search.yahoo.com 
Harvest-NG/1.0.2

回复收藏 0 原文