node 爬虫问题

发布于 2022-09-07 23:56:48 字数 156 浏览 16 评论 0

使用superagent请求某网页,网页不是ssr页面数据都是走接口获得(我知道正常来讲直接爬接口就好,但是我有个特别需求非要这样- -),
我希望通过cheerio分析页面形式获得数据,使用cheerio load请求到的html,但有时load完的html上会没有数据,请问这是怎么回事?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

南笙 2022-09-14 23:56:48

原来是被网站反爬虫了

淤浪 2022-09-14 23:56:48

你都说了,网页不是server side render的。大概率是浏览器里面用js 继续拉取资源,动态渲染的。

这种情况下,直接看chrome的网络,看看都请求了什么资源,依次排查,找到你想要的,然后针对那个url抓取核心数据。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文