python爬虫

python爬虫

文章 460 浏览 23

python爬虫post请求失败

用python3.6写的爬虫,requests库,post获取数据。地址:http://epub.sipo.gov.cn/index...想要获得的数据在:例如 2018.05.29 发明授权数据已更新。…

爱你不解释 2022-09-07 16:01:37 28 0

Python Selenium模拟登录成功后,使用此cookie、利用requests库进行get时,提示“非法登陆”。

一. 步骤概述 a. 模拟登录学校选课系统(使用Selenium库登陆http://xk.suibe.edu.cn/xsxk/login.xk) b. 取得cookie后传入requests的session中。(参…

野の 2022-09-07 12:42:47 27 0

爬虫遇到了一个参数case_id,好像是加密的,怎么办

爬虫遇到了未知参数而这个参数是用于请求网址的,该怎么破类似这样的网址:../talk/ExamCaseReportGeneral.jspx?case_id=612e24bf-eae7-4d22-ba4d-9d0…

给不了的爱 2022-09-07 11:25:56 11 0

为什么用scarpy爬大众点评的城市主页有内容而按区爬的时候就无法获取内容?

如下图以所示,当页面是整个城市的美食板块的时候,例如西安美食的网址是"http://www.dianping.com/xian/ch10",可以正常爬取到数据(如图一)。但是…

情徒 2022-09-07 08:50:20 20 0

python 用request post库如何提交这种格式

url = "xxxx";data = { "submitdata":"1$2^}2$2}3$1}4$1^}5$2^", "submittype":1, "curID":"23679247", "t":"1526365748309", "starttime":"2018/5/1…

笙痞 2022-09-07 08:07:36 11 0

模拟登陆网站,发现post表单时密码和账号都被加密,加密的js可以找到,但是加密的参数还有一个是服务器随机返回的,怎么办?

一、模拟登陆一个网站,发现post表单时密码和账号都被加密,加密后的数据传递给一个type属性为hidden的input,我想获取这个input,但是点击登录按钮…

不打扰别人 2022-09-07 08:04:55 71 0

运用scrapy进行爬取京东数据时出现错误

我在爬取京东商品页面时,系统报错是Error processing,然后数据就没有爬取下来了,但是调试时,是可以进行爬取的,而且其他页面也是可以正常通过的…

瑾夏年华 2022-09-07 07:40:48 12 0

爬虫使用代理ip访问ip检测网站发现ip没有改变

使用某个开源项目的API获得的ip,API链接为API在这里,为了检测是否可用,我使用获得的ip用requests访问了ip查询网站 但是,发现我查询到的ip并没有…

扛起拖把扫天下 2022-09-07 04:28:47 53 0

win10是否存在限制以致影响scrapy爬虫?

公司电脑,加域,win10系统,当采集过程中重试次数多时,采集一部分数据后会一直重试,无法继续,原因不明。与代理可用性无关,相同脚本在centos7下…

一念一轮回 2022-09-07 03:58:57 16 0

多个scrapy-redis无法同时抓取

同时开启两个scrapy任务,然后往redis中push一个start_url但是只有一个scrapy任务A在运行,当把A停止之后,B任务才会开始抓取。 原因貌似是因为scrap…

断爱 2022-09-07 03:47:48 20 0

请教个python scrapy 深层爬虫问题

爬取了导航后,想继续深入导航的URL爬取,然后统一返回值写入xlsx -- coding: utf-8 -- from lagou.items import LagouItem;import scrapy class LaGou…

梦幻的味道 2022-09-07 03:29:02 17 0

centos下scrapy定时任务,无法执行

进入项目后执行,报错显示scrapy command not found可是我#scrapy是可以运行的,单独执行scrapy crawl test爬虫命令也可以执行,只是定时命令会出现s…

苍暮颜 2022-09-07 00:11:15 15 0

爬虫请求json数据需要 带参数cookie请求,cookie里面的token该怎么处理

请求不同的页面,sptoken是不断变化的…

嘿嘿嘿 2022-09-06 22:57:59 14 0

PYTHON APScheduler库中的job_defaults设置什么,没看明白,求大佬解惑

网官文档设置如下 from pytz import utc from apscheduler.schedulers.background import BackgroundScheduler from apscheduler.jobstores.mongodb …

舟遥客 2022-09-06 22:11:17 21 0

在pyhton中有没有一种库或框架 可以动态生成任务,并监控其状态,并根据其状态或属性,实时的去掉任务或继续运行

看了celery aps 之类的库,可是网上中文资料太少,还是一头雾水说一下需求: 1 比如体育比赛,一天有一百场,生成这一百场 比赛的URL 每个为一个任务…

扛刀软妹 2022-09-06 22:07:32 32 0
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文