Python 爬取网页,?

发布于 2022-09-02 10:54:21 字数 496 浏览 10 评论 0

想爬去今日头条这个网页中的数据,发现Post数据图片描述

图片描述

有一些变量是没有变化的,有一些是在变化的,一直找不到变化的规律,想请指教一下?能看出来是怎么变化的么?max_behost_time =str(time.time())[0:12]

max_create_time= float(str(time.time())[0:12])+552
max_time=float(str(time.time())[0:12])+1162
这是我找到的规律,但是不对

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

时光无声 2022-09-09 10:54:21

和time没有必然联系

从字面上看,max_create_time指定了一个边界条件,即我将获取的下一组数据的创建时间的最大值。根据其业务逻辑,max_create_time的值应该是当前列表的所有项中创建时间的最小值

至于max_behot_time,从字面上看不出,应该和另一个列表有关。

_这个参数无实义,目的是防止浏览器缓存。

°如果伤别离去 2022-09-09 10:54:21

你去看看它的js代码,这些值有可能是通过ajax获取,也有可能是根据一定的规则生成,无论如何,一定与js有关。

泪痕残 2022-09-09 10:54:21

首先你应该从开始找起,就在首页的时候,第一次请求是这样的:没有max_create_time:
图片描述
然后这个请求返回的结果:你会发现点东西:
图片描述

再看第二次请求的参数:知道了吧:max_behot_time这个值就是存在上一次返回结果中:
图片描述

至于max_create_time你自己在试试~~~

何以笙箫默 2022-09-09 10:54:21

能不能建立个群讨论一下啊?我也有这个需求

温柔戏命师 2022-09-09 10:54:21

你好,我通过分析好几个json文件发现确实是这样的,下次一的max_time在上一次的max_time中间可以提取出来,这样的话就可以来拼接了

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文