关于webmagic登陆爬取页面,有啥示例代码么?@黄亿华
黄亿华/webmagic
有个需求,是需要带用户名和密码访问登录页面,算出来cookie,带上之后再访问一个页面,结合服务器返回的随机值再算出来一个另外一个cookie,再跳转一个页面,加上另外一个返回的cookie后,才能访问到详细信息,然后才开始爬取。以前是用httpclient自己一步步模拟请求的,用了爬虫框架后对这种需求好像没有太好的处理方式。求大神指教@黄亿华
@黄亿华 能否支持模拟登录后,得到登录后的一个CookieManager,对于后续需要登录的url,都带上一个CookieManager?
多谢提醒,可能是我升级HttpClient版本的问题,今晚我回去查下!
需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。
响应是403吗,设置个User-Agent就行了,设置个浏览器的User-Agent,呵呵
no
这个你可以问红薯!
回复,,
oschina不能抓取太频繁,后台有验证
回复可以抓,但是cookie抓抓不到自己的登陆
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(14)
有个需求,是需要带用户名和密码访问登录页面,算出来cookie,带上之后再访问一个页面,结合服务器返回的随机值再算出来一个另外一个cookie,再跳转一个页面,加上另外一个返回的cookie后,才能访问到详细信息,然后才开始爬取。以前是用httpclient自己一步步模拟请求的,用了爬虫框架后对这种需求好像没有太好的处理方式。求大神指教
@黄亿华
@
黄亿华 能否支持
模拟登录后,得到登录后的一个CookieManager,对于后续需要登录的url,都带上一个CookieManager?
@黄亿华 能否支持模拟登录后,得到登录后的一个CookieManager,对于后续需要登录的url,都带上一个CookieManager?
多谢提醒,可能是我升级HttpClient版本的问题,今晚我回去查下!
引用来自“黄亿华”的答案
需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。
响应是403吗,设置个User-Agent就行了,设置个浏览器的User-Agent,呵呵
no
响应是403吗,设置个User-Agent就行了,设置个浏览器的User-Agent,呵呵
这个你可以问红薯!
回复
,,
oschina不能抓取太频繁,后台有验证
回复
可以抓,但是cookie抓抓不到自己的登陆
需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。
需要分析一下目标站点,到底是哪个cookie对登陆起作用,然后用site.addCookie带上再抓。没有示例代码,因为这方面有太多不确定因素,是个比较复杂的问题。