node 爬虫问题
使用superagent请求某网页,网页不是ssr页面数据都是走接口获得(我知道正常来讲直接爬接口就好,但是我有个特别需求非要这样- -),
我希望通过cheerio分析页面形式获得数据,使用cheerio load请求到的html,但有时load完的html上会没有数据,请问这是怎么回事?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
原来是被网站反爬虫了
你都说了,网页不是server side render的。大概率是浏览器里面用js 继续拉取资源,动态渲染的。
这种情况下,直接看chrome的网络,看看都请求了什么资源,依次排查,找到你想要的,然后针对那个url抓取核心数据。