如何整理爬虫抓取信息的格式?

发布于 2022-09-07 04:09:39 字数 140 浏览 15 评论 0

例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样,难道我要给每个网站写一个爬虫吗?
还有,信息被抓取来后,每个网站个信息格式也不同,我需要调整为我网站的格式,有没有一套可以适用于所有格式的调整方法?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

初懵 2022-09-14 04:09:39

1.如何抓取多个网站的文章?
答:不同的网站,意味着html结构、分页格式都会不一样,只能针对不同的网页,写不同的解析程序。
2.如何整理爬虫信息?
答:你肯定是知道要抓取什么内容的不是吗?如标题,内容,作者等等,无非就是key-value,将值存在数据库对应的字段即可。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文