当前位置：文江博客文章教程详情

爬虫框架采集框架 Yurun-Crawler

Yurun-Crawler 低代码高性能分布式爬虫采集框架

发布于 2021-05-10 21:42:53 字数 2346 浏览 1857 评论 0

宇润爬虫框架 Yurun Crawler 是一个低代码、高性能、分布式爬虫采集框架，这可能是最一把梭的爬虫框架。

Yurun Crawler 基于 imi 框架开发，运行在 Swoole 常驻内存的协程环境。

为什么会开发这个框架？遇上有爬虫相关需求，调研了一些市面上现有的 PHP 爬虫框架，甚至是其它语言的爬虫框架，功能都十分简陋，需要编写的重复代码极多，不够一把梭。

目标

能够用最少的代码，方便快速地实现爬虫采集功能。

愿景

成为宇宙第一爬虫框架，以后提到爬虫就想到 Yurun Crawler 可以一把梭实现！

功能特性

低代码，几乎不需要编写代码，大部分逻辑依靠注解实现
高性能，基于 imi + Swoole 常驻内存及协程实现。即便只开一个下载器进程，也足以支撑大量的并发下载任务。
分布式，采集的流程由消息队列推动，依靠 Redis 等中间件实现纯天然的分布式特性
支持下载器并发限流
内置解析能力强，支持：Dom 解析、正则、JSON、Chrome Headless 页面渲染采集
代理 IP 池，支持：MySQL、Redis
支持定时采集
支持模型存储
方便扩展

示例

Demo Example: https://github.com/Yurunsoft/yurun-crawler-example

主要采集逻辑，可通过注解的方式来编写，超级简单：

<?php
namespace Yurun\CrawlerApp\Module\YurunBlog\Article\Model;

use Yurun\Crawler\Module\Parser\Annotation\DomSelect;
use Yurun\Crawler\Module\Parser\Enum\DomSelectMethod;
use Yurun\Crawler\Module\DataModel\Contract\BaseDataModel;

/**
 * 文章内容模型
 */
class ArticleModel extends BaseDataModel
{
    /**
     * 标题
     * 
     * @DomSelect(selector=".article-view h1", method=DomSelectMethod::TEXT)
     *
     * @var string
     */
    public $title;

    /**
     * 内容
     *
     * @DomSelect(selector=".article-content", method=DomSelectMethod::HTML)
     * 
     * @var string
     */
    public $content;

    /**
     * 时间
     *
     * @DomSelect(selector=".article-info .time", method=DomSelectMethod::TEXT)
     *
     * @var string
     */
    public $time;

}

概念

采集项目

有时候，我们会先采集列表页，再采集内容页

列表页、内容页，都是采集项目，他们的下载、解析、处理逻辑可能都不相同

下载器

负责请求网址，下载并存储内容。

多协程的架构下，支持同时下载海量数据。

支持限流。

数据模型

定义需要从页面中，提取的内容属性。

解析器

负责解析下载后的内容，从中提取需要的信息，返回数据模型。

支持：Dom 解析、正则、JSON、Chrome Headless 页面渲染采集。

处理器

解析器解析出数据模型后，交由处理器进行处理。

存储器

负责将解析后的数据存储入库，支持多种存储方式，并且可以自由扩展。

代理 IP 池

实现代理 IP 池抽象，开发者可以很方便地对接不同接口方。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

xCharts 精美的 JavaScript 图表库插件

给 WordPress 投稿者用户添加/移除上传文件权限

基于 PhotoSwipe 的 Vue 图片预览插件

jQuery.extend 函数用法详细讲解

判断 WordPress 文章中是否有图片相册

Offline.js 检测用户的网络是否连接

FullCalendar 基于 jQuery 的项目日程管理日历时间事件管理 JS 框架

DuoJS 下一代前端打包工具包管理器

上一篇： YurunOAuthLogin 基于 PHP 第三方登录授权 SDK

下一篇： Three.js 图层 Layers 对象和 .layers 属性

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

文章

评论

84965 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

qq_aHcEbj

文章 0 评论 0

qq_ikhFfg

文章 0 评论 0

寻找我们的幸福

文章 0 评论 0

把昨日还给我

文章 0 评论 0

wj_zym

文章 0 评论 0

巴黎夜雨

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文