如何分离后台HTTP请求

发布于 2024-10-20 10:08:22 字数 345 浏览 3 评论 0原文

这更多的是一个尝试理解 HTTP 真正工作原理然后实现它的问题。

我需要一个 HTTP 分析器，能够区分主页请求和来自某些 HTTP 日志数据的“后台”请求。这个想法是将用户发出的 HTTP 请求与后台自动发生的请求（宽松地使用这个术语）分开。因此，从我看到的 HTTP 数据的最初印象来看，当我访问任何普通网站时，都会获取一个 text/html 对象，然后获取许多其他对象，如 css、xml、javascript、图像等。

现在的问题是如何在用户主动不生成请求的情况下分离这些“后台”请求。据我所知，这主要是广告获取、重定向和一些基于 Ajax 的东西。

有谁对此有任何想法吗？您可以指点我开始进行此分析的一些经验或资源？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暗恋未遂 2024-10-27 10:08:22

无法区分浏览器因特定用户操作或其他自动化进程而与裸 HTTP 请求生成的请求。浏览器/客户端是唯一拥有此类知识的人，因此您必须将其作为图片的一部分，例如将分析器实现为浏览器插件或将 HTTP 客户端嵌入为分析器本身的一部分。

如果您尝试创建一个通用工具来分析流量负载，那么区分用户直接“点击”和自动请求生成的流量通常没有意义。

回复收藏 0 原文

夏末 2024-10-27 10:08:22

没有直接且干净的方法来做到这一点。但是，您可以通过过滤掉对显然不是“用户”请求的文件的请求（例如 *.jpg）来非常接近。此外，您还可以过滤掉非 HTTP/200 响应（例如 301 和 302 重定向）。

尝试按照以下方式进行操作：（

cat access.log
    | grep -E -v "(.gif|.ico|.png|.jpg|.jpeg|.js|.css) HTTP"
    | grep "HTTP/1.1\" 200"

添加换行符以提高可读性）

There's no direct and clean way to do this. However, you can get pretty close by filtering out requests for files that clearly are not "user" requests, like *.jpg. Furthermore, you can filter out what is not a HTTP/200 response (e.g., 301 and 302 redirects).

Try something along the lines of:

cat access.log
    | grep -E -v "(.gif|.ico|.png|.jpg|.jpeg|.js|.css) HTTP"
    | grep "HTTP/1.1\" 200"

(added line breaks for readability)

回复收藏 0 原文

~没有更多了~

关于作者

安人多梦

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

如何分离后台HTTP请求

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

梦里南柯

不将就、

alipaysp_ZRaVhH1Dn

青衫儰鉨ミ守葔

故事未完

梦晓ヶ微光ヅ倾城

友情链接

如何分离后台HTTP请求

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

梦里南柯

不将就、

alipaysp_ZRaVhH1Dn

青衫儰鉨ミ守葔

故事未完

梦晓ヶ微光ヅ倾城

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。