用于抓取网站并编译每个 URL 的有效负载统计信息的工具?

发布于 2024-10-22 22:32:35 字数 187 浏览 6 评论 0原文

我的目标是抓取给定的网站,并记录该网站上每个页面的总负载的统计信息。我所说的有效负载是指下载原始文档、css、js、图像等后的字节数。我正在尝试制作一个图表,该图表将显示我网站上“最重”的页面,以便可以首先处理这些页面。

有谁知道有什么工具或技术可以做到这一点?我更喜欢能够与 PHP 或 Python 中的 Web 应用程序很好地集成的东西。

My goal is to crawl a given site, and log statistics for the total payload of each page on the site. By payload I mean the number of bytes once the original document, css, js, images, etc... are downloaded. I'm attempting to put together a graph which will show the "heaviest" pages on my site so that those can be dealt with first.

Does anyone know of any tools or techniques to do this? My preference is something that would integrate well with a web app, in PHP or Python.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

滥情空心 2024-10-29 22:32:35

我已经看到很多关于SO的问题关于机械化,它们通常看起来只需要一点点代码就可以完成很多工作。

I've seen plenty of questions on SO about Mechanize, they usually look like they get a lot done with only a little bit of code.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文