文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

5. 使用注解编写爬虫

发布于 2019-11-28 05:27:14 字数 1168 浏览 1181 评论 0 收藏 0

WebMagic 支持使用独有的注解风格编写一个爬虫，引入 webmagic-extension 包即可使用此功能。

在注解模式下，使用一个简单对象加上注解，可以用极少的代码量就完成一个爬虫的编写。对于简单的爬虫，这样写既简单又容易理解，并且管理起来也很方便。这也是 WebMagic 的一大特色，我戏称它为 OEM (Object/Extraction Mapping)。

注解模式的开发方式是这样的：

首先定义你需要抽取的数据，并编写类。
在类上写明 @TargetUrl 注解，定义对哪些 URL 进行下载和抽取。
在类的字段上加上 @ExtractBy 注解，定义这个字段使用什么方式进行抽取。
定义结果的存储方式。

下面我们仍然以第四章中 github 的例子，来编写一个同样功能的爬虫，来讲解注解功能的使用。最终编写好的爬虫是这样子的，是不是更加简单？

@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl("https://github.com/\\w+")
public class GithubRepo {

    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(1000)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(5).run();
    }
}

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

5. 使用注解编写爬虫

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。