用于衡量搜索爬虫的网络日志文件分析软件

发布于 2024-09-25 14:45:15 字数 184 浏览 14 评论 0原文

我需要分析我的网站中发生的搜索引擎爬行。有没有一个好的工具可以做到这一点？我尝试过 AWStats 和 Sawmill。但这两者都让我对爬行的了解非常有限。我需要知道特定爬虫在一段时间内爬行了我网站的某个部分中有多少个独特/不同的网页之类的信息。

由于其 JavaScript 跟踪机制，Google Analytics 根本不跟踪爬行。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夕嗳→ 2024-10-02 14:45:15

在跟踪您网站首页的链接后，主要的搜索引擎爬网程序将首先请求一个名为 robots.txt 的文件，该文件当然会告诉搜索爬网程序它的页面站点所有者允许访问哪些文件或目录是禁止访问的。

如果您没有 robots.txt 怎么办？爬虫几乎总是将其“解释”为没有页面/目录是禁止访问的，并且它将继续爬行您的整个网站。那么，如果您想要包含 robots.txt 文件（即让爬虫为您的整个网站建立索引），为什么还要包含 robots.txt 文件呢？因为如果它在那里，爬虫程序几乎总是会请求它，以便它可以读取它——这个请求当然会在服务器访问日志文件中显示为一行，这对于爬虫程序来说是一个非常强大的签名。

其次，一个好的服务器访问日志解析器，例如 Webalyzer 或 Awstats。
将用户代理和 IP 地址与已发布的权威列表进行比较：IAB (http://www.iab.net/sites/spiders/login.php）和 user-agents.org 发布了两个似乎最广泛用于此目的的列表。前者每年花费数千美元以上；后者是免费的。

Webalyzer 和 AWStats 都可以做您想做的事情，但我推荐 AWStats 的原因如下：它是最近更新的（大约一年前），而 Webalyzer 上次更新是在八年前。此外，AWStats 有更好的报告模板。 Webalyzer 的优点是速度更快。

以下是 AWStats 的示例输出（基于开箱即用的配置），可能正是您正在寻找的内容：

“替代文本”