【求助】如何获取这个网站的数据,加入了反爬,有难度

发布于 2022-09-05 15:48:08 字数 1430 浏览 19 评论 0

1.目标网站是:http://app1.sfda.gov.cn/datas...

2.test.py代码如下:

#-*- coding: UTF-8 -*-
import urllib
import urllib2

print "======================="

url="http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882";


headers = {
    'Host':'app1.sfda.gov.cn',
    'Referer':'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER',
};

values = {};
values['tableId']='25';
values['tableName']='TABLE25';
values['title']='%B9%FA%B2%FA%D2%A9%C6%B7';
values['bcId']='124356560303886909015737447882';

data = urllib.urlencode(values) 

request = urllib2.Request(url,data,headers)
response = urllib2.urlopen(request)
print response.read()


print "======================="

3.运行test.py后,获取不到数据
图片描述

尝试了使用phantomjs模拟浏览器同样抓不到,求助大家了?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

愚人国度 2022-09-12 15:48:08

这是用了js混淆,参考文章:http://www.bijishequ.com/deta...
你可以使用selenium来获取源码

from selenium import webdriver

url = 'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882'

wd = webdriver.Chrome()
wd.get(url)
print wd.page_source
淡紫姑娘! 2022-09-12 15:48:08

@prolifes
感谢prolifes的回复,测试成功!
还有个问题,还请麻烦再过目下!
如图:
图片描述

如何能在打开首页后,并一页一页的翻页进行下去?谢谢

自己尝试点击下一页,但是获取不到数据

links = browser.find_elements_by_tag_name("img")
links[77].click()

图片描述

哽咽笑 2022-09-12 15:48:08

用Chrome的网络工具监视一下点击下一页的网络动作,就会发现翻页是post一个form。curstart是页码。

tableId:25
State:1
bcId:124356560303886909015737447882
State:1
curstart:3
State:1
tableName:TABLE25
State:1
viewtitleName:COLUMN167
State:1
viewsubTitleName:COLUMN821,COLUMN166,COLUMN170
State:1
tableView:%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81
State:1

浏览器里面测试没问题啊,你是不是没有给post的数据设置请求头为FormData?

var data={tableId:25,
State:1,
bcId:124356560303886909015737447882,
curstart:3,
tableName:'TABLE25',
viewtitleName:'COLUMN167',
viewsubTitleName:['COLUMN821','COLUMN166','COLUMN170'],
tableView:'%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81'}

var formData='';
var request = new XMLHttpRequest();
request.open("POST", "search.jsp",false);
request.setRequestHeader("Content-Type","application/x-www-form-urlencoded");
for(let x in data){
    formData+=`${x}=${data[x]}&`
}
request.send(formData);
console.log(request.responseText);
人疚 2022-09-12 15:48:08

test test

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文