Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?
我在做一个python爬虫,使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页,然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码,请问我该如何取得新打开页面的源码呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
发布评论
评论(3)
与风相奔跑2022-09-11 20:59:28
如果链接打开了一个新标签页的话,你的driver还是下默认使用的还是当前窗口,
Alternatively, you can pass a “window handle” to the “switch_to_window()” method. Knowing this, it’s possible to iterate over every open window like so:
for handle in driver.window_handles:
driver.switch_to_window(handle)
比如,如果你的浏览器有几个标签页,那么window_handles就保存了对应这几个标签页对应的实例对象,所以如果你当前只打开了一个网页,那么你新打开的页面就是 window_handles[1]
转换到那个页面后,再获取源码。
~没有更多了~
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
Phantomjs对js事件支持的不太好,如果必须用click事件,你可以用chrome或者firefox,然后selenium有个隐藏浏览器界面的模块,这样就是完全模拟浏览器操作了,连user-agent都不需要伪装。还有,phantomjs爬虫,再header中会显示是phantomjs引擎的,对你的爬虫隐藏的不是太好,需要伪装