webmagic网络爬虫将爬取到的内容保存到本地文件夹,怎么把本地文件夹路径存到数据库中
使用webmagic爬取数据,将网页标题,作者,评论数,点赞数等存储到数据库中,
将网页具体内容存储到本地文件夹,通过
Spider.create(new StoreXXPage()).addUrl("https://www.oschina.net/blog?classification=428609").addPipeline(new FilePipeline("D://webmagic")).run();这种形式。
怎么获取到这个(new FilePipeline("D://webmagic")?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
通过获取指定目录的文件的日期来区分可以实现,但有没有什么方法直接在生成的时候就赋值?
可以通过FildPipeline存储名称来定义,再在PROCESS里存储数据库的名字统一起来。