python selenium 抓取含有 javascript网页表格如何翻页的问题
爬虫爬取新浪财经(http://finance.sina.com.cn/stock/usstock/sector.shtml)上的美股数据,网页中包含了javascript,我用selenium 抓取时只能抓到第一页表格,我gaizenm from selenium import selenium from selenium import webdriver browser=webdriver.PhantomJS(executable_path=r'D:phantomjs-2.1.1-windowsbinphantomjs.exe') url=r'http://finance.sina.com.cn/stock/usstock/sector.shtml' browser.get(url) html = browser.execute_script("return document.documentElement.outerHTML") 这样得到的html只有第一页,请问怎么才能拿齐全部数据呢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
循环获取数据,如果是JavaScript就用ajax 获取。AJAX通过抓包提取
可以参考下这个文档哦~http://doc.shenjianshou.cn/renderJS.html
用browser获取到翻页标签的对象,调用click方法,再延时若干秒,就可以翻页了。
还可以试着去抓包,比用selenium模拟访问要效率很多。