对于实时/并行 HTTP 爬虫来说，有什么好的库/平台吗？

发布于 2024-09-15 08:55:07 字数 861 浏览 8 评论 0原文

我正在构建一个爬虫，它可以实时从多个网站并行获取信息，以响应客户端对此信息的请求。我需要从 10-20 个网站请求特定页面，解析其内容以获取特定的信息片段，并尽快将此信息返回给客户端。我想异步执行此操作，以便客户端在准备好后立即获取显示的第一个结果，而其他请求仍处于待处理状态。

我有 Ruby 背景，因此更喜欢在 Ruby 中构建解决方案 - 然而，并行性和速度正是 Ruby 所不擅长的。我相信 EventMachine 和 Typhoeus 可以解决这个问题，但我也在强烈考虑 node.js ，因为我非常了解 javascript 并且似乎是为这种事情而构建的。

无论我选择什么，我还需要一种有效的方式将结果传达给客户。我正在考虑使用普通的 AJAX（但这需要轮询服务器）、Web 套接字（但这需要旧版浏览器的回退）以及用于持久客户端/服务器通信的特定解决方案，例如抽筋、剑圣和推手。

有人想分享一些经验和/或建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浅忆流年 2024-09-22 08:55:26

如果您的抓取工具需要 Javascript 支持，我建议使用 http://htmlunit.sourceforge.net/。
有一个可用的 JRuby 包装器 http://celerity.rubyforge.org/

功能（取自站点）包括：

快速 - 没有耗时的 GUI
渲染或不必要的下载
易于使用 - 简单的 API
JavaScript 支持
可扩展 - Java 线程允许您并行运行测试
可移植- 借助 JVM 实现跨平台
非侵入性 - 没有浏览器窗口中断您的工作流程（在
背景）

回复收藏 0 原文

金橙橙 2024-09-22 08:55:25

Node 绝对有能力处理这种类型的任务 - 异步套接字和 http 通信是内置的，使用起来非常愉快。

我的大部分工作都是 j/Ruby，我发现向服务器端 JavaScript 的过渡非常轻松 - 多年的 Web 开发经验意味着我非常了解 js，而且无论使用哪种语言，服务器开发概念基本上都是相同的。

在通信方面 Socket.io 是一个优秀的客户端和服务器框架，用于处理节点中的套接字通信 - 它支持 flash， ajax 和 websocket 通道这意味着它可以在几乎任何现代（和一些较旧的）浏览器上使用。

回复收藏 0 原文

~没有更多了~

关于作者

影子的影子

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

对于实时/并行 HTTP 爬虫来说，有什么好的库/平台吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

对于实时/并行 HTTP 爬虫来说，有什么好的库/平台吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。