问一个python采集全部的问题。怎么样设置定时及采列表?

发布于 2021-11-17 17:57:11 字数 343 浏览 851 评论 1

比如我采集这个网站:http://career.tsinghua.edu.cn/publish/career/8130/index.html

一共53页。

我现在只会采内容。

那采列表一般采到了列表。只用到列表里的网址就可以?然后把采到的网址保存到一个列表中。只彩网址中的内容?

那现在的问题是。这个站每天都更新信息。网址无规则。如果我想天天自动采集的话。怎么样判断那条信息我有没有采过?怎么样知道那信息是不是当时刚发出来的?用什么办法可以知道采的集的是昨天没采过的信息?

就是当这个站发布信息后。我这边的站自动采集。不用人工管。但是采的信息是没有采过的。

大体的思路是什么样的? 多谢了

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

无声静候 2021-11-21 22:10:28

或者说怎么用python 采一个整站。并根据那个站的更新。我这边定时采集?

这个是什么样的思路啊?

或者有什么教程与代码学习一下?多谢了啊。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文