返回介绍

17.1 创建云起书院爬虫

发布于 2024-01-26 22:39:51 字数 973 浏览 0 评论 0 收藏 0

在开始编程之前,我们首先需要根据项目需求对云起书院网站进行分析。目标是提取小说的名称、作者、分类、状态、更新时间、字数、点击量、人气和推荐等数据。首先来到云起书院的书库(http://yunqi.qq.com/bk ),如图17-1所示。

可以在图书列表中找到每一本书的名称、作者、分类、状态、更新时间、字数等信息。同时将页面滑到底部,可以看到翻页的按钮,如图17-2所示。

接着选其中一部小说点击进去,可以进到小说的详情页,在作品信息里,我们可以找到点击量、人气和推荐等数据,如图17-3所示。

以上将整个云起书院爬虫项目的流程分析完成,编程可以正式开始了。首先在命令行中切换到用于存储项目的路径,然后输入以下命令创建云起书院爬虫项目和爬虫模块:

  scrapy startproject yunqiCrawl
  cd yunqiCrawl
  scrapy genspider -t crawl yunqi.qq.com yunqi.qq.com

图17-1 图书列表

图17-2 翻页按钮

图17-3 小说详情页

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文