webmagic登陆爬取问题请教!

发布于 2021-11-26 23:55:53 字数 229 浏览 863 评论 14

关于webmagic登陆爬取页面,有啥示例代码么?
@黄亿华

黄亿华/webmagic

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(14

瑾兮 2021-12-03 15:25:30

有个需求,是需要带用户名和密码访问登录页面,算出来cookie,带上之后再访问一个页面,结合服务器返回的随机值再算出来一个另外一个cookie,再跳转一个页面,加上另外一个返回的cookie后,才能访问到详细信息,然后才开始爬取。以前是用httpclient自己一步步模拟请求的,用了爬虫框架后对这种需求好像没有太好的处理方式。求大神指教

@黄亿华

秉烛思 2021-12-03 15:25:29

@
黄亿华 能否支持
模拟登录后,得到登录后的一个CookieManager,对于后续需要登录的url,都带上一个CookieManager?

做个少女永远怀春 2021-12-03 15:25:27

@黄亿华 能否支持模拟登录后,得到登录后的一个CookieManager,对于后续需要登录的url,都带上一个CookieManager?

因为看清所以看轻 2021-12-03 15:25:22

多谢提醒,可能是我升级HttpClient版本的问题,今晚我回去查下!

草莓味的萝莉 2021-12-03 15:25:21

引用来自“黄亿华”的答案

需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。

如日中天 2021-12-03 15:24:08

响应是403吗,设置个User-Agent就行了,设置个浏览器的User-Agent,呵呵

残花月 2021-12-03 15:08:32

响应是403吗,设置个User-Agent就行了,设置个浏览器的User-Agent,呵呵

成熟稳重的好男人 2021-12-03 15:07:14

这个你可以问红薯!

多彩岁月 2021-12-03 14:17:54

回复
,,

爱你是孤单的心事 2021-12-03 06:44:49

oschina不能抓取太频繁,后台有验证

悲喜皆因你 2021-12-02 16:07:45

回复
可以抓,但是cookie抓抓不到自己的登陆

高跟鞋的旋律 2021-12-02 03:28:00

需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。

囚你心 2021-12-01 03:41:03

需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文