搜索引擎类

发布于 2025-02-19 22:34:17 字数 5927 浏览 0 评论 0 收藏 0

该小节会从定义和用途上介绍一下搜索引擎爬虫.搜索引擎爬虫在整体用途中算少数.它主要是看robot.txt来获取页面的信息.然后尽可能快的，深的挖掘出互联网中的所有链接.按照前面所说，该类爬虫分为批量型，增量型和垂直型三类.

批量型
此类爬虫有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程.其流程图如下：但该类爬虫存在特定问题，就是当已经爬取的网站发生变化时，无法感知到其变化，导致资源失效。适用于那些那些很久不更新页面.对于那些更新频繁的，我们需要用到增量型.
增量型
.此类爬虫会根据自身的算法来实现周期性访问已经爬取过的网站，如果该网站有了变化，那么就会将变化记录下来，保证资源不失效，如果网站一切照旧，那么就不会去改变.流程图一般是这样的：一般商业搜索引擎的爬虫都是此类，为批量型的改进型。适用于绝大部分情况，是搜索引擎中使用最广泛的，承担着收录互联网中各种地址的重任.但该类爬虫往往注重于广度，即最大可能的抓取尽量多的链接，很容易出现深度不足的问题.而这问题，就靠垂直型爬虫来补充.
垂直型
垂直型爬虫一般是作为特定行业内的深度搜索引擎的爬虫而工作的，只抓取特定行业的数据，这样可以最大程度的减少无关信息的影响，但其最大的难度是对于消息的判断，存在错误和遗漏.换言之，就是深度优先策略，即最大可能的抓取尽量深的链接。其运作模式与增量型除了最开始加一个判断模块外，大体相同.只不过一个偏向于广度，一个偏向于深度.流程图如下:此爬虫与增量型爬虫互相补充，共同为搜索引擎服务.