webmagic 如何实现我的这个需求
我有一个文本,每行一个url,如何用webmagic多线程抓取.
并且每个url抓到的结果仅仅是一个String 的键值对,比如这样:
============
shanghai, 1000
beijing, 455
...
====================
这个url文本可以多线程?
这个保存结果的pipline可以多线程?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
懂了,谢谢 @ywooer
在启动爬虫之前,先解析文本中的url到数组或集合中,然后通过addUrls加入到队列中,再然后启动爬虫就可以了。
例如:Spider.create(new XXXProcessor()).addUrl({"url1","url2","url3"}).thread(N).run();
N代表线程数