能够在 Windows 上用 python 解释 Javascript 的网络爬虫
我的最终目标是构建一个能够下载网页上所有图像的网络爬虫。我从阅读中了解到,我需要嵌入一个渲染/布局引擎,例如 Gecko 或 Webkit。
不幸的是,我运行的是 Windows,所以 PyWebkit 已经退出,并且短期学习 C++ for Gecko 或 Java 来使用 Rhino,我不知道该转向哪里。
是否有一个可靠的带有 python 绑定的渲染引擎可以在 Windows(64 位,Windows 7)中工作?有没有一种简单的方法可以在 Windows 上的 python 脚本中执行 javascript?
My ultimate goal is to build a web crawler capable of downloading all of the images on a webpage. My understanding from the reading I've done is that I need to embed a rendering/layout engine such as Gecko or Webkit.
Unfortunately, I'm running windows, so PyWebkit is out and short learning C++ for Gecko or Java to use Rhino, I'm not sure where to turn.
Is there a reliable rendering engine with python bindings that will work in windows (64-bit, Windows 7)? Is there an easy way to execute javascript within a python script on windows?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您不需要 Webkit 来做到这一点。您所需要的只是一个运行 Javascript 代码的引擎,因此请查看 Gogole V8 或 < a href="http://www.mozilla.org/js/spidermonkey/" rel="nofollow">Mozilla SpiderMonkey。
如果您更喜欢使用 Python 来构建抓取工具,则可能需要使用 PyV8,因为它提供了所有必要的绑定。
You don't need Webkit to do that. All you need it an engine to run Javascript code, so take a look at Gogole V8 or Mozilla SpiderMonkey.
If you're prefer Python to build your crawler, you may want to use PyV8 as it provides all necessary bindings.