当前位置：文江博客话题详情

将搜索引擎列入黑名单的最佳方法是什么？

发布于 2024-10-24 01:35:33 字数 371 浏览 2 评论 0原文

我使用 CodeIgniter 作为框架，用 PHP/MySQL 构建了一个照片社区 Web 应用程序。所有内容都是公开的，因此搜索引擎会定期访问。这正是我想要的，但它有两个不需要的副作用：

每次访问都会在我的会话表中创建一个会话。
搜索引擎对照片页面的每次访问都会增加查看计数器

至于第二个问题，我正在重写对查看计数脚本的调用，仅从 JavaScript 调用，这应该可以防止搜索引擎的计数增加，对吧？

至于会话表，我的想法是使用 cron 事后清理它，以免对性能产生影响。我正在会话表中记录 IP 和用户代理字符串，因此在我看来，黑名单方法是最好的？如果是这样，最好的方法是什么？是否有一种简单/可重用的方法来确定会话来自搜索引擎？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一城柳絮吹成雪 2024-10-31 01:35:33

识别主要搜索引擎（提示）
根据预编译列表检查访问者（见上文）
不要启动会话/增加匹配计数器

编辑：

用户代理列表

回复收藏 0 原文

泪之魂 2024-10-31 01:35:33

您为什么担心这两种情况？处理爬虫的最佳策略是像对待其他用户一样对待它们。

搜索引擎创建的会话与任何其他会话没有什么不同。它们都必须被垃圾收集，因为您不可能假设每个用户在离开您的网站时都会单击“注销”按钮。处理它们的方式与处理任何过期会话的方式相同。无论如何你都必须这样做，那么为什么要花费额外的时间来以不同的方式对待搜索引擎呢？

至于搜索引擎增加视图计数器，为什么这是一个问题？无论如何，“观看次数”是一个容易引起误解的术语。你真正告诉人们的是该页面被请求了多少次。您无法确保一双眼睛确实看到该页面，而且确实没有合理的方法可以做到这一点。对于您“列入黑名单”的每个机器人，都会有十几个一次性抓取您的内容并且不提供友好的用户代理字符串。

回复收藏 0 原文