禁止 robots.txt 中的某些网址

发布于 2024-09-01 15:19:04 字数 1459 浏览 4 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

冰葑 2024-09-08 15:19:04

您应该使用 POST 来执行更改操作,因为搜索引擎通常不提交表单。此外,这将阻止递归下载您的网站(例如使用 wget)的用户提交大量投票。

根据您的站点,通过 JavaScript 处理投票也可能是一种解决方案。

关于您的 robots.txt:
它必须位于根路径中 - 即 http://www.thesite.com/robots.txt - 如果您的评级系统为 /blah/rate,则需要使用 Disallow: /blah/rate 而不是 Disallow: /rate

You should use POST for actions which change things as search engine usually do not submit forms. Additionally, this will prevent users who download your website recursively (e.g. with wget) from submitting tons of votes.

Depending on your site, handling voting though javascript might be a solution, too.

Regarding your robots.txt:
It has to be in the root path - i.e. http://www.thesite.com/robots.txt - and if your rating system is at /blah/rate you need to use Disallow: /blah/rate instead of Disallow: /rate

深空失忆 2024-09-08 15:19:04

对我来说看起来不正确。您只是禁止访问 http://www.thesite.com/rate(及其下面的页面 IIRC)。另外,一些爬虫会忽略robots.txt

最好使评级仅根据 POST(而不是 GET)响应而改变。搜索引擎从不使用POST。

Looks incorrect to me. You're only disallowing access to http://www.thesite.com/rate (and pages below it IIRC). Plus some crawlers ignore robots.txt!

Better to make it so that ratings are only ever altered in response to a POST, rather than a GET. Search engines never use POST.

戏蝶舞 2024-09-08 15:19:04
User-agent: *
Disallow: /path/to/the/page/rate

您必须使用完整路径。

可能想在这里阅读一下: http://www.javascriptkit.com/howto/robots .shtml

User-agent: *
Disallow: /path/to/the/page/rate

You have to use the full path.

Might want to read up here a bit: http://www.javascriptkit.com/howto/robots.shtml

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文