如何整理爬虫抓取信息的格式?
例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样,难道我要给每个网站写一个爬虫吗?
还有,信息被抓取来后,每个网站个信息格式也不同,我需要调整为我网站的格式,有没有一套可以适用于所有格式的调整方法?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
1.如何抓取多个网站的文章?
答:不同的网站,意味着html结构、分页格式都会不一样,只能针对不同的网页,写不同的解析程序。
2.如何整理爬虫信息?
答:你肯定是知道要抓取什么内容的不是吗?如标题,内容,作者等等,无非就是key-value,将值存在数据库对应的字段即可。