当前位置：文江博客文章教程详情

Ruby rabbitmq Spider

Spider 基于 RabbitMQ 中间件的爬虫的 Ruby 实现

发布于 2022-02-28 20:20:58 字数 1253 浏览 973 评论 0

设计思路

爬虫（典型的生产者 - 消费者模型）在我的理念里由以下几部分组成：

Fetcher 抓取器：
- Fetcher 这里的实现是对 HttpClient 的封装
- Fetcher 拿到 Response 之后会判定是否需要写入队列 - 然后被消费者消费
Scheduler 调度器
Middleware 中间键

衍生开来：

多线程抓取器 - Fetcher 跑在线程里面
分析器 - 解析抓取的内容

怎样安装

gem install spider -s https://github.com/w-zengtao/rb-spider

依赖于

Redis
RabbitMQ

配置文件

config.yml

默认配置如下

redis:
  url: 127.0.0.1
  port: 6379
  db: 0
rabbitmq:
  vhost: "/"
  username: guest
  password: guest
  host: 127.0.0.1

如何使用

如我们在设计思路里面所讲，我们的程序的入口应该在 Scheduler 模块

源码里面的一些技巧

Ruby的单例模式
Ruby的线程池 - 也就是CPU资源池
利用轮询设计的定时器

项目地址：https://github.com/w-zengtao/rb-spider

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

WordPress 记录和显示会员最后登录的时间

Gridly 基于 jQuery 的容器拖放布局插件

Unveil.js 基于 jQuery 轻量级的图片懒加载插件

BlackAndWhite 把图片转成黑白效果 jQuery 插件

Anujs 高级兼容 React16 的迷你 React 框架

ZRender 强大的二维绘图引擎

批量获取微店商品主图详情页图片到同一目录上

CSS 网格 Web 布局完全指南中文版

上一篇：针对字符串排序进行改进的一种快速排序算法

下一篇：在 macOS 中连接 Github 服务

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

文章

评论

84965 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文