搜索引擎和爬虫的区别?
我的理解是爬虫是搜索引擎的一部分,负责信息的采集。 搜索引擎其他两个部分应该还包括语义分析和全文索引,不知道我这样的理解对不对?
还有请问下现有的开源搜索引擎包含了爬虫部分吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我的理解是爬虫是搜索引擎的一部分,负责信息的采集。 搜索引擎其他两个部分应该还包括语义分析和全文索引,不知道我这样的理解对不对?
还有请问下现有的开源搜索引擎包含了爬虫部分吗?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
从这本书里大概能给你一个较为宏观的答案:
http://www.infoq.com/cn/minibooks/this-is-search-engine
关于开源的搜索引擎,Nutch应该是最富盛名的了,它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.开源的话其实会很多,分的也会相对细一点,这就看你注重什么方面了。
除了Nutch,其他的还有很多,可以自己去找资料看一下,比如:
(以上一部分靠记忆,一部分来自OSChina)
今天发现的一个百度网盘爬虫,还不错:https://segmentfault.com/a/1190000005105528
关注这个博客很久了,写的爬虫教程很多,关键是教程好细致,特色适合初学者
推荐给你看看
youmumzcs的专栏
http://blog.csdn.net/youmumzc...