请教如何爬取简书某一时间段发帖。

发布于 2022-09-04 21:21:20 字数 1207 浏览 13 评论 0

我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13

想尝试的思路如下:

  • 百度

    • 利用百度的 site 语法

    • 限定日期

    • 观察大约有 70 个帖子

  • Google

    • google 的 site 语法

    • 限定日期

    • 观察大约有 120 个帖子

实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求

问题

  1. 用这种方法得到的结果是否靠谱?请问有更靠谱的方法吗?

  2. 用 Google 还是用百度呢?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

陌上青苔 2022-09-11 21:21:20

为了全面,你可以把主流的搜索引擎接口都拿来用,不一定要限制在某个搜索引擎接口上。我们有队友搜索某些话题就是这么干的,因为有的网站站内没提供满足需求的搜索方式,这个时候也只有借助搜索引擎了。不过通过搜索引擎搜索的方式信息可能不全面,robots协议规定了不能搜索的,搜索引擎不会收录

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文