WordPress 博客的 robots.txt （不允许 /blog/page/... 但允许抓取所有帖子的链接？）

发布于 2024-12-23 13:27:23 字数 331 浏览 3 评论 0原文

我有一个非常幼稚的问题，我找不到答案。我有一个 WordPress 博客。所有帖子都列在几个页面中，例如

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

，所以我不希望爬虫“记住”特定页面上的内容，但想让它抓取每个“/page/”上链接的所有帖子，它是否能够跟踪和抓取我不允许的页面上的链接

disallow: /blog/page/ ?

或者我如何禁止抓取特定页面上的哪些帖子，但仍然让它抓取所有帖子？

原文

I have a very naive question I can't find an answer.
I have a wordpress blog.
All posts are listed in several pages, e.g.

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

so I don't want a crawler to "remember" what was on particular page, but want to let it
crawl all posts linked on each "/page/", will it be able to follow and crawl links on pages I disallow with

disallow: /blog/page/ ?

Or how do I disallow crawling what posts are on particular page, but still let it crawl all posts?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我不会写诗 2024-12-30 13:27:23

你不能用 robots.txt 做到这一点。您的示例 Disallow 行将告诉抓取工具，“永远不要请求以 /blog/page/ 开头的 URL。

您可能想要做的是添加一个” noindex" 机器人元标记到您的所有 /page/ 页面。这告诉 Google，“不要” t 索引这些页面”，但允许机器人抓取它们并获取各个博客条目的链接。

回复收藏 0 原文

~没有更多了~

关于作者

云归处

暂无简介

文章

28 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

WordPress 博客的 robots.txt （不允许 /blog/page/... 但允许抓取所有帖子的链接？）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

WordPress 博客的 robots.txt （不允许 /blog/page/... 但允许抓取所有帖子的链接？）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。