当前位置：文江博客话题详情

我可以允许（通过搜索引擎）对受限内容建立索引而不将其公开吗？

发布于 2024-09-28 02:01:51 字数 266 浏览 5 评论 0原文

我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中，但不希望它公开。

有没有一种方法可以允许爬虫爬行我的网站，但阻止它们将其公开？

我找到的最接近的解决方案是 Google First Click Free 但即使它需要我第一次显示内容。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

酷炫老祖宗 2024-10-05 02:01:51

为什么要允许人们搜索点击链接后无法访问的页面？从技术上讲，它可能会使其变得困难（如果用户代理包含“googlebot”，请检查您的身份验证代码，尽管如果人们非常想要您的内容，则没有什么可以阻止人们伪造此用户代理），但基本上没有意义。

另外，谷歌的官方路线（IIRC，虽然在任何地方都找不到这个）是，你可能会因为故意试图向谷歌机器人显示与人类用户看到的内容不同的内容而受到惩罚。

回复收藏 0 原文

小糖芽 2024-10-05 02:01:51

您几乎已经锁定了 Google First Click Free。您唯一的其他解决方案就是冒着违反网站管理员规则的风险。

如果您确实使用 Google First Click Free，则可以保护您的某些内容。一种方法是对较长的文章或论坛进行分页，并且不允许对附加内容进行爬网。然后，系统会提示查找其余内容的用户注册您的网站。

更高级的方法是允许对所有内容进行爬网和索引。通过分析确定您更有价值的内容；然后让 Google 知道您不希望再抓取“附加”或辅助页面（通过 rel=、元机器人、x-robots 等）。确保您也不会存档这些页面，以便人们无法通过 Google 缓存后门访问内容。您已经有效地允许用户获取主要内容，但如果他们想阅读更多内容，则必须注册才能获得访问权限。

这可以被视为“灰色”帽子，因为您实际上没有违反任何网站管理员指南，但您正在创建一个不常见的实现。您不会向用户提供不同的内容，而是明确告诉 Google 您希望抓取哪些内容和不希望抓取哪些内容，同时保护您网站的价值。

当然，像这样的系统并不容易实现自动化，但如果您环顾四周，您会看到出版物或某些论坛/留言板在做类似的事情。

回复收藏 0 原文

白馒头 2024-10-05 02:01:51

并不真地。

您可以为来自已知搜索引擎的请求设置 cookie，并允许这些请求访问您的内容，但这并不能阻止人们欺骗他们的请求，或者使用谷歌翻译之类的东西来代理信息。

回复收藏 0 原文

行至春深 2024-10-05 02:01:51

谷歌自定义搜索引擎有自己的索引。 http://www.google.com/cse/manage/create 这样你基本上就可以通过按需索引将您的所有网站推送到 Google 自定义搜索 http://www.google.com/support/customsearch/bin/topic.py?hl=en&topic=16792 并在此后不久阻止真正的 googlebot 再次访问它和/或通过以下方式将其踢出谷歌网站管理员工具。

但这会导致大量的黑客攻击，您的网站有时会逃逸到野外（或者有时您会将其从点播索引中踢出）。

和/或者您可以购买自己的小型 Google（称为 google enterprise）http://www. google.com/enterprise/search/index.html 然后你的谷歌可以访问它，但它不会被发布。可用的。

但再次阅读你的问题：这可能不是你想要的？不是吗？

回复收藏 0 原文

~没有更多了~