当前位置：文江博客话题详情

AJAX Googlebot google-crawlers

当 Googlebot 请求“?_escaped_fragment_=”网址时，它如何知道网络服务器没有隐藏？

发布于 2024-12-22 13:23:33 字数 379 浏览 5 评论 0原文

对于 Google 的 AJAX 抓取规范，如果服务器返回 #! URL 的一个内容（即 JavaScript 密集型文件）和其他其他内容 em>（即页面的“html 快照”）发送给 Googlebot，当 #! 替换为 ?_escaped_fragment_= 时，感觉喜欢对我伪装。毕竟，Googlebot 如何确定服务器正在返回 #! 和 ?_escaped_fragment_= 网址的善意等效内容。然而，这正是 AJAX 爬行规范实际上告诉网站管理员要做的事情。我错过了什么吗？ Googlebot 如何确定服务器在这两种情况下返回相同的内容？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

疯到世界奔溃 2024-12-29 13:23:33

爬虫不知道。但即使对于返回纯 ol' html 的网站，它也永远不会知道 - 编写基于爬虫使用的 http 标头或已知 IP 标头来隐藏网站的代码非常容易。

如何知道您正在伪装？

请参阅此相关问题： Google 这似乎是猜测，但似乎可能存在各种适当的检查，在欺骗正常浏览器标题和实际的真人查看页面之间有所不同。

继续这个猜想，编写一种实际检索用户所看到内容的爬虫程序当然不会超出谷歌程序员的能力——毕竟，他们有自己的浏览器可以做到这一点。一直这样做会耗费大量的 CPU 资源，但对于偶尔的抽查来说可能是有意义的。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

30 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文