如何使用 Perl 有效地提取 HTML 内容？

发布于 2024-08-04 15:43:26 字数 432 浏览 12 评论 0原文

我正在用 Perl 编写一个爬虫，它必须提取驻留在同一服务器上的网页内容。我目前正在使用 HTML::Extract 模块来完成这项工作，但我发现该模块有点慢，所以我查看了它的源代码，发现它没有使用任何连接缓存 LWP::UserAgent。

我的最后一招是获取 HTML::Extract 的源代码并修改它以使用缓存，但我真的想尽可能避免这种情况。有谁知道任何其他模块可以更好地执行相同的工作？我基本上只需要获取元素中的所有文本并删除 HTML 标签。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

伊面 2024-08-11 15:43:26

我使用 pQuery 进行网页抓取。但我也听说过有关 Web::Scraper 的好消息。

这两个模块以及其他模块都出现在 SO 上针对与您类似问题的答案中：

回复收藏 0 原文

吐个泡泡 2024-08-11 15:43:26

HTML::Extract 的功能看起来非常基本且无趣。如果 draegfun 提到的模块您不感兴趣，您可以使用 LWP::UserAgent 和 HTML::TreeBuilder< 完成 HTML::Extract 所做的一切/code> 你自己，根本不需要太多代码，然后你就可以按照自己的方式自由地进行缓存工作。