在 Windows 上使用 Node.js 抓取网站

发布于 2024-12-10 17:27:50 字数 256 浏览 0 评论 0 原文

尝试让 jsdom（node.js 模块）在 Windows 上工作。一直抱怨没有为我的节点版本构建。

在 Linux 机器上安装了节点（相同版本，0.5.9，来自源代码）并对其进行了节点处理。然后我将它复制到Windows机器（在node_modules下）

仍然不行...

有什么想法吗？或者从对节点发出的请求的响应中获得的解析 HTML 的其他建议？

通过 jsdom 使用 jquery 会很方便。

干杯。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

快乐很简单 2024-12-17 17:27:50

我很遗憾地说 jsdom (>=0.2.3) 目前需要一个 C++ 插件，它在 Windows 上运行得不太好。我认为你最好的选择是尝试安装 [email protected] 并解决在 jsdom 窗口上下文中执行 javascript 导致的内存泄漏。

解决方法包括：

为每个 dom 生成一个新进程，
重用窗口并通过 document.body.innerHTML = '..new markup..'; 的方式替换 DOM

目的是摆脱 c++插件，但不幸的是目前不可能。

回复收藏 0 原文

一袭白衣梦中忆 2024-12-17 17:27:50

如果node.js不是绝对必须的，请查看我们的 SO-ist @nrabinowitz 的 pjscrape 。它经过测试和证明。

此外，node-scraper 似乎是适合您工作的工具，拥有 222 个观察者和 11 个观察者叉子似乎也相当活跃。可以在自述文件或就在这里。

回复收藏 0 原文

行至春深 2024-12-17 17:27:50

我不确定你到底想做什么，但是 node.io 有一个抓取可能符合要求的框架。

回复收藏 0 原文

放赐 2024-12-17 17:27:50

我刚刚开始使用 Node.js 模块 Cheerio，与 jsdom 相比，它：

更快
更容易安装
对损坏的 HTML 更具弹性（与 jsdom 相比）
并且提供了大部分您将在服务器端使用的 jQuery 函数

http://matthewmueller.github.com/cheerio/

抓取示例：

var request = require('request'),
    cheerio = require('cheerio');

request('http://encosia.com', function(error, response, body) {

  // Hand the HTML response off to Cheerio and assign that to
  // a local $ variable to provide familiar jQuery syntax.
  var $ = cheerio.load(body);

  // Exactly the same code that we used in the browser before:
  $('h2').each(function() {
      console.log($(this).text());
  });

});

I've just been playing with the node.js module Cheerio, and compared with jsdom, it's:

Much faster
Much easier to install
Much more resilient to broken HTML (compared with jsdom)
And provides most of the jQuery functions you would use server-side

http://matthewmueller.github.com/cheerio/

Scraping example:

var request = require('request'),
    cheerio = require('cheerio');

request('http://encosia.com', function(error, response, body) {

  // Hand the HTML response off to Cheerio and assign that to
  // a local $ variable to provide familiar jQuery syntax.
  var $ = cheerio.load(body);

  // Exactly the same code that we used in the browser before:
  $('h2').each(function() {
      console.log($(this).text());
  });

});

回复收藏 0 原文

~没有更多了~