webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息
webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息?
获取到时间了,但是链接怎么判断了再加进去?
初始网址如图,想从具体网页中进行判断,再添加进去
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息?
获取到时间了,但是链接怎么判断了再加进去?
初始网址如图,想从具体网页中进行判断,再添加进去
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
转换后和当前时间比较下,只抓取你设定的时间内的内容
嗯,想之后只爬取最新的数据,只能根据时间判断了
转换吧,这种基于当前时间的 '22小时前' 其实就是当前时间减22小时的具体时间,你上次抓取这个网站的时间是什么时间.然后获取之后时间的连接就可以.但是实际情况下可能有太多的问题,不建议直接用时间来判断的.因为时间是对方网站的东西,只是基于时间的规则还是无法获取的.因为某些网站这个时间可能是通知时间,或许其他的时间.比如,停电通知之类的.这个时间可能就是未来半年的时间.