返回介绍

搜索引擎类

发布于 2025-02-19 22:34:17 字数 5927 浏览 0 评论 0 收藏 0

该小节会从定义和用途上介绍一下搜索引擎爬虫.搜索引擎爬虫在整体用途中算少数.它主要是看robot.txt来获取页面的信息.然后尽可能快的,深的挖掘出互联网中的所有链接.按照前面所说,该类爬虫分为批量型,增量型和垂直型三类.

  • 批量型
    此类爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程.其流程图如下:但该类爬虫存在特定问题,就是当已经爬取的网站发生变化时,无法感知到其变化,导致资源失效。适用于那些那些很久不更新页面.对于那些更新频繁的,我们需要用到增量型.

  • 增量型
    .此类爬虫会根据自身的算法来实现周期性访问已经爬取过的网站,如果该网站有了变化,那么就会将变化记录下来,保证资源不失效,如果网站一切照旧,那么就不会去改变.流程图一般是这样的:一般商业搜索引擎的爬虫都是此类,为批量型的改进型。适用于绝大部分情况,是搜索引擎中使用最广泛的,承担着收录互联网中各种地址的重任.但该类爬虫往往注重于广度,即最大可能的抓取尽量多的链接,很容易出现深度不足的问题.而这问题,就靠垂直型爬虫来补充.

  • 垂直型
    垂直型爬虫一般是作为特定行业内的深度搜索引擎的爬虫而工作的,只抓取特定行业的数据,这样可以最大程度的减少无关信息的影响,但其最大的难度是对于消息的判断,存在错误和遗漏.换言之,就是深度优先策略,即最大可能的抓取尽量深的链接。其运作模式与增量型除了最开始加一个判断模块外,大体相同.只不过一个偏向于广度,一个偏向于深度.流程图如下:此爬虫与增量型爬虫互相补充,共同为搜索引擎服务.

搜索引擎爬虫是一个非常高深的领域,里面基本都是大规模商用型爬虫,个人开发的很少,如果你读了这篇想进入搜索引擎爬虫的世界的话,那只有请你自己多加努力了。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文