问一个python采集全部的问题。怎么样设置定时及采列表?
比如我采集这个网站:http://career.tsinghua.edu.cn/publish/career/8130/index.html
一共53页。
我现在只会采内容。
那采列表一般采到了列表。只用到列表里的网址就可以?然后把采到的网址保存到一个列表中。只彩网址中的内容?
那现在的问题是。这个站每天都更新信息。网址无规则。如果我想天天自动采集的话。怎么样判断那条信息我有没有采过?怎么样知道那信息是不是当时刚发出来的?用什么办法可以知道采的集的是昨天没采过的信息?
就是当这个站发布信息后。我这边的站自动采集。不用人工管。但是采的信息是没有采过的。
大体的思路是什么样的? 多谢了
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
或者说怎么用python 采一个整站。并根据那个站的更新。我这边定时采集?
这个是什么样的思路啊?
或者有什么教程与代码学习一下?多谢了啊。