是否有一个简单的类/库使用 pyQT/webkit 来抓取具有 javascript 支持的网站?
我正在考虑使用 pyQT 来抓取支持 javascript 的网站,在尝试了所有静态 html 替代方案(beautifulsoup、mechanize 等)之后,
显然 pyQT 是一个更通用的工具,因此没有针对我的需求进行优化。
是否有任何类/库为我提供了使用 pyQT 执行相对简单的抓取任务的简单函数?
我通过搜索谷歌找到了一些类/脚本,但我希望有更适合我需求的东西!
我需要提交表单、维护会话并返回 html 以使用 lxml 进行处理。
谢谢 :)
i'm looking at using pyQT to scrape websites with javascript support, after dabbling with all the static html alternatives (beautifulsoup, mechanize etc.)
clearly pyQT is a much more generic tool and as such is not optimised for my needs.
is there any classes/libraries which give me simple functions for using pyQT for relatively simple scraping duties?
i have found a few classes/scripts by searching google, but am hopefull for something better suited to my needs!
i need to submit forms, maintain sessions, and return the html for processing with lxml.
thanks :)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可能想看看spynner——它是一个基于QtWebKit的编程浏览器模块。它可能会满足您的需求。
You might want to take a look at spynner--it's a programmatic browser module based on QtWebKit. It might meet your needs.