网络爬虫

文章 47 浏览 293

360Spider是如何发现网站上的新页面的？从access_log能否判断是不是伪装成360Spider的访问请求？

昨天重装了服务器系统，重新搭建了网站。结果当天就出现360spider的访问记录。访问的都是新页面，之前没有这些页面。我没有向360提交过网站，也没有设…

万劫不复 2022-09-13 00:39:09 23 0

android okhttp3 websokcet 直播间爬虫报错

''' @author:stephen @time 2020/12/24 ''' import websocket import time try: import thread except ImportError: import _thread as thread class …

ゝ偶尔ゞ 2022-09-12 22:39:12 22 0

淘宝天猫爬虫验证码

最近在做淘宝的爬虫https://list.tmall.com/search...这是链接我在爬虫遇到验证码的时候我手动滑动过去，然后我那个爬虫还是失效，必须把通过验证码…

客…行舟 2022-09-12 22:38:29 25 0

java爬虫数据提取

&ltspan class="field-item"&gt 5&ltem id="H1g36c2"&gt0&lt/em&gt00万&ltdiv id="H4irM1c"&gt&lt/div&gt&lt/span&gt &ltspan class="field-item"&gt …

吃不饱 2022-09-12 13:30:17 18 0

python 爬虫的xpath 问题

我用xpath 这样写 leftData=htmlResult.xpath('//td[contains(@align,"left")]/text()') 最后的结果是这样： ['\r\n\t\t\t\t\t\t\t 21060\t\t\t\t\t…

缪败 2022-09-12 00:09:02 19 0

请问下列功能分别属于OSI模型的哪个层次？

1)把比特流还原为帧； 2)决定使用哪些路径将数据传送到目的端； 3)差错控制； 4)拥塞控制； 5)流量控制； 6)传输介质…

他夏了夏天 2022-09-07 19:36:34 20 0

HtmlUnit请求页面抛出异常

谢谢你查看我的问题用htmlunit请求页面时失败"http://passport2.chaoxing.com/login?fid=&amprefer="用谷歌浏览器访问却正常用htmlunit2.3和htmluni…

热鲨 2022-09-07 07:51:45 26 0

python cookie 的问题

login_res = requests.post(url=login_url, headers=self.headers, data=form_data, proxies=self.proxies).text self.cookie_name=requests.post(ur…

我只土不豪 2022-09-06 13:11:35 17 0

java爬虫通过selenium+WebDriver遍历页面链接报错

背景由于要爬取的页面，每个链接的请求都是点击之后js动态发起的，目标数据也多是js动态生成的，所以使用selenium工具+webdriver（调试用的是chrome…

ぃ弥猫深巷。 2022-09-06 12:53:48 18 0

httpClient请求得到的页面和Chrome监控到的返回页面相比，少了一些内容？

背景用httpClient爬取页面的时候发现爬到的页面和chrome监控到的少了几行。 Chrome监控到的：我抓到的：可以看到下面比上面少了一些内容。问题 …

沉默的熊 2022-09-06 12:50:53 15 0

Java httpClient实现爬虫怎么取到浏览器中sessionStorage的值

背景我用httpClent来实现爬虫，在获取到其中一个页面，要进行下一步操作的时候，发现网址请求是在js文件中发起的，并且这个url是动态的，根据点击的…

安人多梦 2022-09-06 12:05:58 24 0

Python如何爬取多个Request URL不变，Form Data改变的页面？

在爬取香港交易所的股票数据时链接描述，发现页面的Request URL没有改变。直接post日期，也只返回最近一日的数据。 url = 'http://sc.hkexnews.hk/Tu…

快乐很简单 2022-09-06 03:42:14 20 0

Java网络爬虫，抓取https ，报400。

我做了一个网络爬虫，抓取某网站的网页，是https ，我用Fiddler抓包cookie和header设置的应该没问题。可总反馈400错误。这是一个Post请求，表单里没…

时光磨忆 2022-09-06 00:42:37 30 0

搜狗购物商品库存接口

有没有大神能告诉我一下。搜狗购物有没有现成的数据接口获取商品的库存量。如果有。。还请告诉一下我接口是多少。。万分感谢!…

我的鱼塘能养鲲 2022-09-05 09:21:22 17 0

python requests上传文件问题

headers Accept:text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,*/*q=0.8 Accept-Encoding:gzip, deflate, br Accept-Language:z…

隔纱相望 2022-09-04 19:24:27 17 0

共 3 页
1
2
3
下一页

友情链接

文江博客