Tomcat7 和 Tomcat7 Struts1 - 处理大量 Google Bot 命中

发布于 2024-11-05 05:42:35 字数 562 浏览 5 评论 0原文

我的一台服务器上超过一半的点击量来自 Google Bot，它不断地抓取我们数百万个页面。

我们有这么多页面的原因是该公司是一家汽车配件商店，对于制造商零件号及其适合的车辆的每种组合都有唯一的 URL。这不是我们可以摆脱的东西；人们一直在搜索这些术语，我们需要为每个术语提供独特的登陆页面（当然，因为我们所有的竞争对手都有它们！）。

因此，我们有数百万个页面需要谷歌了解。这意味着我们全天候从他们的爬虫程序中每秒获得多次点击，这种流量与任何最终用户流量一样重要和必要。

由于我们不断向目录中添加新产品，每周大约有数十万种，因此我们的唯一 URL 列表越来越长，并且流量也在稳步增加。

Google 机器人不会关注 cookie，这意味着它每次都会获得一个新会话，因此这会将我们的内存使用量提高到分配的最大值。

其他使用 Tomcat7 和 Struts 的人如何处理如此大量的自动化流量？

我计划尝试的方法是在每个请求结束时在页面页脚 JSP 磁贴中使会话无效（当且仅当用户代理字符串是 Google 抓取工具时）。这是节省内存的有效技术吗？

还有哪些其他策略可以帮助我们更有效地处理机器人流量？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

千柳 2024-11-12 05:42:35

我并不完全在这个领域，但你有没有尝试过看看：
http://www.robotstxt.org/

我想这是谷歌应该遵守的标准。

回复收藏 0 原文

~没有更多了~

关于作者

烟柳画桥

暂无简介

0 文章

0 评论

24 人气

关注发私信

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

Tomcat7 和 Tomcat7 Struts1 - 处理大量 Google Bot 命中

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

Tomcat7 和 Tomcat7 Struts1 - 处理大量 Google Bot 命中

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。