【求助】如何获取这个网站的数据,加入了反爬,有难度
1.目标网站是:http://app1.sfda.gov.cn/datas...
2.test.py代码如下:
#-*- coding: UTF-8 -*-
import urllib
import urllib2
print "======================="
url="http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882";
headers = {
'Host':'app1.sfda.gov.cn',
'Referer':'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER',
};
values = {};
values['tableId']='25';
values['tableName']='TABLE25';
values['title']='%B9%FA%B2%FA%D2%A9%C6%B7';
values['bcId']='124356560303886909015737447882';
data = urllib.urlencode(values)
request = urllib2.Request(url,data,headers)
response = urllib2.urlopen(request)
print response.read()
print "======================="
3.运行test.py后,获取不到数据
尝试了使用phantomjs模拟浏览器同样抓不到,求助大家了?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
这是用了js混淆,参考文章:http://www.bijishequ.com/deta...
你可以使用selenium来获取源码
@prolifes
感谢prolifes的回复,测试成功!
还有个问题,还请麻烦再过目下!
如图:
如何能在打开首页后,并一页一页的翻页进行下去?谢谢
自己尝试点击下一页,但是获取不到数据
用Chrome的网络工具监视一下点击下一页的网络动作,就会发现翻页是post一个form。curstart是页码。
浏览器里面测试没问题啊,你是不是没有给post的数据设置请求头为FormData?
test test