返回介绍

1.1 设计思想

发布于 2019-11-28 05:27:14 字数 923 浏览 1309 评论 0 收藏 0

logo

1. 一个框架,一个领域

一个好的框架必然凝聚了领域知识。WebMagic 的设计参考了业界最优秀的爬虫 Scrapy,而实现则应用了 HttpClient、Jsoup 等 Java 世界最成熟的工具,目标就是做一个 Java 语言 Web 爬虫的教科书般的实现。

如果你是爬虫开发老手,那么 WebMagic 会非常容易上手,它几乎使用 Java 原生的开发方式,只不过提供了一些模块化的约束,封装一些繁琐的操作,并且提供了一些便捷的功能。

如果你是爬虫开发新手,那么使用并了解 WebMagic 会让你了解爬虫开发的常用模式、工具链、以及一些问题的处理方式。熟练使用之后,相信自己从头开发一个爬虫也不是什么难事。

因为这个目标,WebMagic 的核心非常简单——在这里,功能性是要给简单性让步的。

2. 微内核和高可扩展性

WebMagic 由四个组件(Downloader、PageProcessor、Scheduler、Pipeline) 构成,核心代码非常简单,主要是将这些组件结合并完成多线程的任务。这意味着,在 WebMagic 中,你基本上可以对爬虫的功能做任何定制。

WebMagic 的核心在 webmagic-core 包中,其他的包你可以理解为对 WebMagic 的一个扩展——这和作为用户编写一个扩展是没有什么区别的。

3. 注重实用性

虽然核心需要足够简单,但是 WebMagic 也以扩展的方式,实现了很多可以帮助开发的便捷功能。例如基于注解模式的爬虫开发,以及扩展了 XPath 语法的 Xsoup 等。这些功能在 WebMagic 中是可选的,它们的开发目标,就是让使用者开发爬虫尽可能的简单,尽可能的易维护。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文