在 robots.txt 中指定变量

发布于 2024-09-08 22:57:10 字数 517 浏览 4 评论 0原文

我的 URL 结构设置为两个并行(都通向同一个地方):

  • www.example.com/subname
  • www.example.com/123

问题是也就是说,蜘蛛会爬入以下内容:

  • www.example.com/subname/default_media_function
  • www.example.com/subname/map_function

请注意,名称“subname”代表我的网站上有数千个不同的页面,它们都具有相同的功能。

他们抛出错误,因为这些链接严格用于 JSON 或 AJAX 目的,而不是实际链接。我想阻止他们访问这些页面,但如果 URL 包含变量,我该怎么做?

这在 robots.txt 中有效吗?

Disallow: /map_function

My URL structure is set up in two parallels (both lead to the same place ):

  • www.example.com/subname
  • www.example.com/123

The trouble is is that, the spiders are crawling into things like:

  • www.example.com/subname/default_media_function
  • www.example.com/subname/map_function

Note that the name "subname" represents thousands of different pages on my site that all have that same function.

And they are throwing out errors because those links are strictly for JSON or AJAX purposes and not actual links. I would like to block them from accessing those pages, but how would I do that if the URL contains a variable?

Would this work in robots.txt?

Disallow: /map_function

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

动次打次papapa 2024-09-15 22:57:10

您必须执行以下操作:

Disallow: /subname/map_function

机器人将在根级别查找robots.txt。此外,它们从左到右评估 URL,不带通配符。

因此,您要么需要为所有 map_function 指定一个位置并将其排除,要么排除所有位置。

You are going to have to do

Disallow: /subname/map_function

The robots will look for the robots.txt at root level. Also there they evaluate URLs left to right with no wildcards.

So, you will either need to make one location for all the map_function and exclude that, or exclude all locations.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文