webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息

发布于 2021-12-09 07:59:32 字数 362 浏览 876 评论 3

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息?

获取到时间了,但是链接怎么判断了再加进去?

初始网址如图,想从具体网页中进行判断,再添加进去

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

一个人的旅程 2021-12-09 12:09:30

转换后和当前时间比较下,只抓取你设定的时间内的内容

酒几许 2021-12-09 11:24:09

嗯,想之后只爬取最新的数据,只能根据时间判断了

终遇你 2021-12-09 10:53:15

转换吧,这种基于当前时间的 '22小时前' 其实就是当前时间减22小时的具体时间,你上次抓取这个网站的时间是什么时间.然后获取之后时间的连接就可以.但是实际情况下可能有太多的问题,不建议直接用时间来判断的.因为时间是对方网站的东西,只是基于时间的规则还是无法获取的.因为某些网站这个时间可能是通知时间,或许其他的时间.比如,停电通知之类的.这个时间可能就是未来半年的时间.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文