搜索引擎和爬虫的区别?

发布于 2022-08-27 11:34:02 字数 104 浏览 19 评论 0

我的理解是爬虫是搜索引擎的一部分,负责信息的采集。 搜索引擎其他两个部分应该还包括语义分析和全文索引,不知道我这样的理解对不对?

还有请问下现有的开源搜索引擎包含了爬虫部分吗?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

波浪屿的海角声 2022-09-03 11:34:02

从这本书里大概能给你一个较为宏观的答案:
http://www.infoq.com/cn/minibooks/this-is-search-engine
关于开源的搜索引擎,Nutch应该是最富盛名的了,它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.开源的话其实会很多,分的也会相对细一点,这就看你注重什么方面了。

除了Nutch,其他的还有很多,可以自己去找资料看一下,比如:

  • Lucene
  • Slor
  • 全文检索引擎 Sphinx
  • Lucene索引查看工具 Luke
  • 实时分布式搜索引擎 Solandra
  • MySQL全文搜索引擎 mysqlcft
  • Java的索引-搜索引擎 IndexTank
  • Solr的PHP接口 Solarium
  • 搜索引擎 Compass
    (以上一部分靠记忆,一部分来自OSChina)
错爱 2022-09-03 11:34:02

今天发现的一个百度网盘爬虫,还不错:https://segmentfault.com/a/1190000005105528

街道布景 2022-09-03 11:34:02

关注这个博客很久了,写的爬虫教程很多,关键是教程好细致,特色适合初学者
推荐给你看看

youmumzcs的专栏
http://blog.csdn.net/youmumzc...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文