python爬虫

python爬虫

文章 460 浏览 23

怎么解决scrapy的request.url的编码问题?

原始URL:http://baijiahao.baidu.com/s?id=1587742763413645693 浏览器重定向为:https://sv.baidu.com/videoui/page/videoland?pd=bjh&context={%2…

感受沵的脚步 2022-09-06 10:54:53 37 0

爬虫,获取网页数据,界面上有,但用爬虫请求之后返回的数据就没有了?

用过selenium还有请求过ajax请求,两种方法返回的数据都是有一部分,有一部分没有. import time from selenium import webdriver driver = webdriver.C…

烟织青萝梦 2022-09-06 10:54:01 18 0

为什么用POST请求翻页,返回的还是第一页的内容

先从response中获取总页数,然后获取POST请求所需参数,通过POST请求达到翻页的目的。之前项目用这种方法Ok,现在遇到个网站不行了,加了headers和co…

森林很绿却致人迷途 2022-09-06 09:23:55 12 0

Python数据抓取正常,插入数据库乱码

抓取数据正常,但是插入数据库后相关标题出现乱码,特别是岂是包含有单引号和货币符号的存在用的这个MySQLdb.escape_string()转义函数各位大牛指点指点…

终陌 2022-09-06 08:26:24 26 0

如何获取获取302 重定向页面的cookie

最近在做网站seo数据的统计,我需要从百度统计那里抓取信息存入我的数据。 我选择PHP + Guzzle6 帮我完成这项工作。 但是实现的功能出了一些问题。我…

高跟鞋的旋律 2022-09-06 06:55:40 23 0

anaconda安装jieba包出现的问题

我需要在anaconda上安装jieba包,但是出现了以下状况: 如果进行搜索,其中的jieba包也不能进行安装 那我应该怎么办呢? …

原谅我要高飞 2022-09-06 06:30:29 16 0

python3.6 使用BeautifulSoup4出现的问题

是因为我的python版本太高了吗? …

旧伤慢歌 2022-09-06 05:59:53 10 0

如何理解python中的re.split

我想问一下使用re.split返回的列表为什么在列表末位多出来一个'' sp = re.split(r'[1-9]\d{5}', 'BIT100081TSU111114', maxsplit=2 ) ['BIT', 'TSU',…

孤檠 2022-09-06 05:41:53 28 0

python 代理不成功?

from urllib import request proxy_handler = request.ProxyHandler({'http': '60.168.23.42:2644'}) opener = request.build_opener(proxy_handler)…

情何以堪。 2022-09-06 05:33:44 11 0

关于网易云音乐爬虫的api接口?

抓包能力有限,分析了一下网易云音乐的一些api接口,但是关于它很多post请求都是加了密,没有弄太明白。之前在知乎看到过一个豆瓣工程师写的教程,但…

深海里的那抹蓝 2022-09-06 05:28:55 37 0

python3爬虫无法通过网页内容判断存在与否?

1.通过对知网期刊的链接去解析包含内容的详情页链接,但是知网不存在页面状态码依旧是 200, 所以转而想用网页存在某些内容来决定取舍,但是判断条件好…

昔日梦未散 2022-09-06 04:12:06 13 0

【python】用phantomjs截图,截图的页面乱码该怎么办?

第一次碰到,用phantomjs截图,截到的图乱码。 要是仅仅是信息上的解决,还可以encode、decode。那截图该怎么办呢?用python语言调用phantomjs …

迷荒 2022-09-06 04:05:29 11 0

pyspider 如何只重爬FAILED的任务?

已讀 https://segmentfault.com/q/10...但我的result.db中并没有一列为status, 应如何处理? 因为数据量太多, 如可能的话, 不想重爬处理, 只想处理FAI…

国产ˉ祖宗 2022-09-06 03:14:19 17 0

python 网页下载附件,没有后缀名该怎么办

任务:访问的网站有附件,要下载附件。python语言问题:有两种情况,第一种情况是取不到后缀名,如http://www.gzsjzyxh.cn/news_d...,附件链接可以…

几味少女 2022-09-06 02:50:31 17 0

pip install的模块被安装到2.7.10而不是2.7.13, 但mac上默认用python2.7.13版本怎么办?

我 sudo pip install pymysql 且成功了,但在普通(这里指没有sudo -i)模式下,python引用不到pymysql模块, sudo -i 后就引用得到pymysql模块, hel…

提笔落墨 2022-09-06 02:26:48 20 0
更多

推荐作者

隔纱相望

文章 0 评论 0

昵称有卵用

文章 0 评论 0

梨涡

文章 0 评论 0

蓝咒

文章 0 评论 0

白芷

文章 0 评论 0

樱娆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文