当前位置：文江博客话题详情

jQuery AJAX Googlebot indexing web-crawler

googlebot 是否会抓取 jQuery $.get() 调用中的网址并且可以阻止吗？

发布于 2024-09-28 21:10:10 字数 354 浏览 8 评论 0原文

我有一个页面，其中有一个使用这个 ajaxForm jQuery 插件的表单。表单提交，完成后，将使用 $.get() 调用将一些新内容加载到页面。

我的问题是，Googlebot“似乎”正在 $.get() 方法中对网址进行索引。

我的第一个问题是，这可能吗？我的印象是 Googlebot 大部分情况下都不会评估 javascript（我读过一些关于它能够使用 !# 对 url 上的内容进行索引的内容）。

我的第二个问题是，如果 Google 将此调用索引到该 url，有没有办法阻止它？

提前致谢。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

虚拟世界 2024-10-05 21:10:10

您可以专门robots.txt该文件，googlebot将应该尊重它。

来自robotstxt.org：

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

您还可以查看 Google 的网站站长中心从列表中删除该文件。

You could robots.txt the file specifically, googlebot ~~will~~ should honor it.

From robotstxt.org:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

You can also look at Google's Webmaster Central to remove the file from the listing.

回复收藏 0 原文

爱要勇敢去追 2024-10-05 21:10:10

首先，您需要检查这是否真的是 GoogleBot，因为任何人都可以假装是 GoogleBot，甚至是合法用户。

推荐的技术是
进行反向 DNS 查找，验证
该名称位于 googlebot.com 中
域，然后做相应的
使用它转发 DNS->IP 查找
googlebot.com 名称。

来源自Google 网站站长中心官方博客：如何验证 Googlebot。

回复收藏 0 原文

烙印 2024-10-05 21:10:10

googlebot 将 inline-javascript 中的几乎每个字符串解释为包含“/”或常见文件扩展名（“.html”、“.php”）的 URL...尤其是第一个非常非常烦人。

混淆内联 JS 中您不希望被抓取的每个 URL。即：将“/”替换为“|”在服务器端并在 JS 中创建一个包装方法来替换“|”再次到“/”。

是的，这很烦人，还有更好的方法，即：将所有 js 放在不可抓取的外部文件中。

robots.txt 解决方案并不是真正的解决方案。因为 URL 仍然会被发现，被推送到发现（谷歌使用管道来确定下一步要抓取的内容），但随后抓取会被阻止，这基本上是一个错失的机会。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文