360Spider是如何发现网站上的新页面的? 从access_log能否判断是不是伪装成360Spider的访问请求?
昨天重装了服务器系统,重新搭建了网站。结果当天就出现360spider的访问记录。访问的都是新页面,之前没有这些页面。我没有向360提交过网站,也没有设…
android okhttp3 websokcet 直播间爬虫报错
''' @author:stephen @time 2020/12/24 ''' import websocket import time try: import thread except ImportError: import _thread as thread class …
java爬虫 数据提取
<span class="field-item"> 5<em id="H1g36c2">0</em>00万<div id="H4irM1c"></div></span> <span class="field-item"> …
python 爬虫的xpath 问题
我用xpath 这样写 leftData=htmlResult.xpath('//td[contains(@align,"left")]/text()') 最后的结果是这样 : ['\r\n\t\t\t\t\t\t\t 21060\t\t\t\t\t…
HtmlUnit请求页面抛出异常
谢谢你查看我的问题 用htmlunit请求页面时失败"http://passport2.chaoxing.com/login?fid=&refer="用谷歌浏览器访问却正常用htmlunit2.3和htmluni…
python cookie 的问题
login_res = requests.post(url=login_url, headers=self.headers, data=form_data, proxies=self.proxies).text self.cookie_name=requests.post(ur…
java爬虫通过selenium+WebDriver遍历页面链接报错
背景 由于要爬取的页面,每个链接的请求都是点击之后js动态发起的,目标数据也多是js动态生成的,所以使用selenium工具+webdriver(调试用的是chrome…
httpClient请求得到的页面和Chrome监控到的返回页面相比,少了一些内容?
背景 用httpClient爬取页面的时候发现爬到的页面和chrome监控到的少了几行。 Chrome监控到的: 我抓到的: 可以看到下面比上面少了一些内容。 问题 …
Java httpClient实现 爬虫 怎么取到浏览器中sessionStorage的值
背景 我用httpClent来实现爬虫,在获取到其中一个页面,要进行下一步操作的时候,发现网址请求是在js文件中发起的,并且这个url是动态的,根据点击的…
Python如何爬取多个Request URL不变,Form Data改变的页面?
在爬取香港交易所的股票数据时链接描述,发现页面的Request URL没有改变。直接post日期,也只返回最近一日的数据。 url = 'http://sc.hkexnews.hk/Tu…
Java网络爬虫,抓取https ,报400。
我做了一个网络爬虫,抓取某网站的网页,是https ,我用Fiddler抓包cookie和header设置的应该没问题。可总反馈400错误。 这是一个Post请求,表单里没…
python requests上传文件问题
headers Accept:text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,*/*q=0.8 Accept-Encoding:gzip, deflate, br Accept-Language:z…