搜索引擎是如何搜索的
搜索引擎是如何搜索到各种网站的?浏览器跟搜索引擎是什么关系?搜索一个网站显示都具体干了哪些步骤?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
搜索引擎是如何搜索到各种网站的?浏览器跟搜索引擎是什么关系?搜索一个网站显示都具体干了哪些步骤?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
网站的话现在不是要流行分布式搜索吗那个,elasticSearch可以学学
一个信息检索系统一般有六个子系统组成:采选子系统、标引子系统、词语子系统、交互子系统、查询子系统、匹配子系统
其中一般由采选子系统完成信息的收集(可以理解为爬虫机器人),标引子系统完成文档的分词和关键信息标引(主要涉及自然语言处理技术),由词语子系统建立和维护系统主题词表、交互子系统提供用户界面(你看到的搜索框和一些检索配置)、查询子系统负责根据搜索提问词建立查询式、匹配子系统完成查询式和文档集之间的信息匹配(有的可能还会有一些相关度计算以根据查询进行排序)及结果返回。
以上就是一个信息检索系统的一般模型,具体的实现每个搜索引擎和可能会有不同。
我们知道网页其实就是一个个超文本文档。根据以上一般原理,我们可以想象,类似的搜索引擎就是完成了网页的抓取、分析、处理、存储、检索、排序、返回,接着你就可以看到你和你搜索的关键词匹配的结果了。
你有兴趣的话,可以找一些关于信息检索与处理相关的书看一看,GitHub上也有一些开源的搜索引擎项目可供参考。
这个有点说来话长,你先看下百度百科把基本原理搞懂,下面代码是基于lucene的搜索:
你可以看下这篇知乎专栏:
https://zhuanlan.zhihu.com/p/...