是否有一个简单的类/库使用 pyQT/webkit 来抓取具有 javascript 支持的网站?

发布于 2024-10-02 18:05:04 字数 277 浏览 1 评论 0原文

我正在考虑使用 pyQT 来抓取支持 javascript 的网站,在尝试了所有静态 html 替代方案(beautifulsoup、mechanize 等)之后,

显然 pyQT 是一个更通用的工具,因此没有针对我的需求进行优化。

是否有任何类/库为我提供了使用 pyQT 执行相对简单的抓取任务的简单函数?

我通过搜索谷歌找到了一些类/脚本,但我希望有更适合我需求的东西!

我需要提交表单、维护会话并返回 html 以使用 lxml 进行处理。

谢谢 :)

i'm looking at using pyQT to scrape websites with javascript support, after dabbling with all the static html alternatives (beautifulsoup, mechanize etc.)

clearly pyQT is a much more generic tool and as such is not optimised for my needs.

is there any classes/libraries which give me simple functions for using pyQT for relatively simple scraping duties?

i have found a few classes/scripts by searching google, but am hopefull for something better suited to my needs!

i need to submit forms, maintain sessions, and return the html for processing with lxml.

thanks :)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

坦然微笑 2024-10-09 18:05:04

您可能想看看spynner——它是一个基于QtWebKit的编程浏览器模块。它可能会满足您的需求。

You might want to take a look at spynner--it's a programmatic browser module based on QtWebKit. It might meet your needs.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文