网络爬虫

网络爬虫

文章 47 浏览 293

360Spider是如何发现网站上的新页面的? 从access_log能否判断是不是伪装成360Spider的访问请求?

昨天重装了服务器系统,重新搭建了网站。结果当天就出现360spider的访问记录。访问的都是新页面,之前没有这些页面。我没有向360提交过网站,也没有设…

万劫不复 2022-09-13 00:39:09 23 0

android okhttp3 websokcet 直播间爬虫报错

''' @author:stephen @time 2020/12/24 ''' import websocket import time try: import thread except ImportError: import _thread as thread class …

ゝ偶尔ゞ 2022-09-12 22:39:12 22 0

淘宝 天猫爬虫 验证码

最近在做淘宝的爬虫https://list.tmall.com/search...这是链接 我在爬虫遇到验证码的时候 我手动滑动过去,然后我那个爬虫还是失效,必须把通过验证码…

客…行舟 2022-09-12 22:38:29 25 0

java爬虫 数据提取

&ltspan class="field-item"&gt 5&ltem id="H1g36c2"&gt0&lt/em&gt00万&ltdiv id="H4irM1c"&gt&lt/div&gt&lt/span&gt &ltspan class="field-item"&gt …

吃不饱 2022-09-12 13:30:17 18 0

python 爬虫的xpath 问题

我用xpath 这样写 leftData=htmlResult.xpath('//td[contains(@align,"left")]/text()') 最后的结果是这样 : ['\r\n\t\t\t\t\t\t\t 21060\t\t\t\t\t…

缪败 2022-09-12 00:09:02 19 0

请问下列功能分别属于OSI模型的哪个层次?

1)把比特流还原为帧; 2)决定使用哪些路径将数据传送到目的端; 3)差错控制; 4)拥塞控制; 5)流量控制; 6)传输介质…

他夏了夏天 2022-09-07 19:36:34 20 0

HtmlUnit请求页面抛出异常

谢谢你查看我的问题 用htmlunit请求页面时失败"http://passport2.chaoxing.com/login?fid=&amprefer="用谷歌浏览器访问却正常用htmlunit2.3和htmluni…

热鲨 2022-09-07 07:51:45 26 0

python cookie 的问题

login_res = requests.post(url=login_url, headers=self.headers, data=form_data, proxies=self.proxies).text self.cookie_name=requests.post(ur…

我只土不豪 2022-09-06 13:11:35 17 0

java爬虫通过selenium+WebDriver遍历页面链接报错

背景 由于要爬取的页面,每个链接的请求都是点击之后js动态发起的,目标数据也多是js动态生成的,所以使用selenium工具+webdriver(调试用的是chrome…

ぃ弥猫深巷。 2022-09-06 12:53:48 18 0

httpClient请求得到的页面和Chrome监控到的返回页面相比,少了一些内容?

背景 用httpClient爬取页面的时候发现爬到的页面和chrome监控到的少了几行。 Chrome监控到的: 我抓到的: 可以看到下面比上面少了一些内容。 问题 …

沉默的熊 2022-09-06 12:50:53 15 0

Java httpClient实现 爬虫 怎么取到浏览器中sessionStorage的值

背景 我用httpClent来实现爬虫,在获取到其中一个页面,要进行下一步操作的时候,发现网址请求是在js文件中发起的,并且这个url是动态的,根据点击的…

安人多梦 2022-09-06 12:05:58 24 0

Python如何爬取多个Request URL不变,Form Data改变的页面?

在爬取香港交易所的股票数据时链接描述,发现页面的Request URL没有改变。直接post日期,也只返回最近一日的数据。 url = 'http://sc.hkexnews.hk/Tu…

快乐很简单 2022-09-06 03:42:14 20 0

Java网络爬虫,抓取https ,报400。

我做了一个网络爬虫,抓取某网站的网页,是https ,我用Fiddler抓包cookie和header设置的应该没问题。可总反馈400错误。 这是一个Post请求,表单里没…

时光磨忆 2022-09-06 00:42:37 30 0

搜狗购物商品库存接口

有没有大神能告诉我一下。搜狗购物有没有现成的数据接口获取商品的库存量。如果有。。还请告诉一下我接口是多少。。万分感谢!…

我的鱼塘能养鲲 2022-09-05 09:21:22 17 0

python requests上传文件问题

headers Accept:text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,*/*q=0.8 Accept-Encoding:gzip, deflate, br Accept-Language:z…

隔纱相望 2022-09-04 19:24:27 17 0
更多

推荐作者

留蓝

文章 0 评论 0

18790681156

文章 0 评论 0

zach7772

文章 0 评论 0

Wini

文章 0 评论 0

ayeshaaroy

文章 0 评论 0

初雪

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文