Scrapy 基于 Python 快速 高层次的屏幕抓取和 Web 抓取爬虫框架

发布于 2020-02-26 17:06:20 字数 1657 浏览 1889 评论 0

Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和 Web 抓取框架,用于抓取 Web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy 吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap 爬虫等,最新版本又提供了 Web2.0 爬虫的支持。

Scrapy 是一个开放源码和协作框架,用于从网站中提取您需要的数据,以一种快速,简单,但可扩展的方式。

构建并运行您的蛛网蜘蛛

pip install scrapy

cat > myspider.py <h2'):
          yield {'title': title.css('a ::text').get()}

      for next_page in response.css('a.next-posts-link'):
          yield response.follow(next_page, self.parse)

EOF

scrapy runspider myspider.py

把它们部署到云

pip install shub
shub login
Insert your Scrapinghub API Key: 

# Deploy the spider to Scrapy Cloud
 shub deploy

# Schedule the spider for execution
shub schedule blogspider 
Spider blogspider scheduled, watch it running here:
https://app.scrapinghub.com/p/26731/job/1/8

# Retrieve the scraped data
shub items 26731/1/8
{"title": "Improved Frontera: Web Crawling at Scale with Python 3 Support"}
{"title": "How to Crawl the Web Politely with Scrapy"}
...

特点

快速而有力

编写规则来提取数据,然后让Scrapy来完成其余的工作。

易于扩展

可扩展的设计,插入新的功能很容易,而不必触及核心。

便携式Python

用Python编写,在Linux、Windows、Mac和BSD上运行

相关链接

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态,并将以不断告别和相遇的陈旧方式继续下去。

文章
评论
84963 人气
更多

推荐作者

微信用户

文章 0 评论 0

小情绪

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

笨死的猪

文章 0 评论 0

彭明超

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文