当前位置：文江博客话题详情

Python PhantomJS Selenium

【求助】如何获取这个网站的数据，加入了反爬，有难度

发布于 2022-09-05 15:48:08 字数 1430 浏览 20 评论 0

1.目标网站是：http://app1.sfda.gov.cn/datas...

2.test.py代码如下：

#-*- coding: UTF-8 -*-
import urllib
import urllib2

print "======================="

url="http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882";


headers = {
    'Host':'app1.sfda.gov.cn',
    'Referer':'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER',
};

values = {};
values['tableId']='25';
values['tableName']='TABLE25';
values['title']='%B9%FA%B2%FA%D2%A9%C6%B7';
values['bcId']='124356560303886909015737447882';

data = urllib.urlencode(values) 

request = urllib2.Request(url,data,headers)
response = urllib2.urlopen(request)
print response.read()


print "======================="

3.运行test.py后，获取不到数据
图片描述

尝试了使用phantomjs模拟浏览器同样抓不到，求助大家了？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

愚人国度 2022-09-12 15:48:08

这是用了js混淆，参考文章：http://www.bijishequ.com/deta...
你可以使用selenium来获取源码

from selenium import webdriver

url = 'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882'

wd = webdriver.Chrome()
wd.get(url)
print wd.page_source

淡紫姑娘！ 2022-09-12 15:48:08

@prolifes
感谢prolifes的回复，测试成功！
还有个问题，还请麻烦再过目下！
如图：
图片描述

如何能在打开首页后，并一页一页的翻页进行下去？谢谢

自己尝试点击下一页，但是获取不到数据

links = browser.find_elements_by_tag_name("img")
links[77].click()

图片描述

哽咽笑 2022-09-12 15:48:08

用Chrome的网络工具监视一下点击下一页的网络动作，就会发现翻页是post一个form。curstart是页码。

tableId:25
State:1
bcId:124356560303886909015737447882
State:1
curstart:3
State:1
tableName:TABLE25
State:1
viewtitleName:COLUMN167
State:1
viewsubTitleName:COLUMN821,COLUMN166,COLUMN170
State:1
tableView:%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81
State:1

浏览器里面测试没问题啊，你是不是没有给post的数据设置请求头为FormData？

var data={tableId:25,
State:1,
bcId:124356560303886909015737447882,
curstart:3,
tableName:'TABLE25',
viewtitleName:'COLUMN167',
viewsubTitleName:['COLUMN821','COLUMN166','COLUMN170'],
tableView:'%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81'}

var formData='';
var request = new XMLHttpRequest();
request.open("POST", "search.jsp",false);
request.setRequestHeader("Content-Type","application/x-www-form-urlencoded");
for(let x in data){
    formData+=`${x}=${data[x]}&`
}
request.send(formData);
console.log(request.responseText);

人疚 2022-09-12 15:48:08

test test

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文