如何实现一个小型的搜索引擎?
现在要做一个小型的搜索引擎,搜索学校图书馆的书评信息。以学校图书馆的体量,用elasticsearch这类型东西属于杀鸡用牛刀了,而且单表几十万的数据我觉得用原生的sql
语句再加上一些索引限制来查就够了,然后加一个字典树。
但是这也是一个锻炼的机会,而且说不定以后的数据量也会扩大,所以我还是决定采用分布式的形式,用读写分离之类的方案(现在也还没完全确定)。
各位网友能不能推荐一些好的和搜索引擎相关的最佳实践类文章,或者好的小型用于学习的开源搜索引擎源代码来参考,甚至感觉可以的话还可以用一下相关的分词/个性推荐排序方面的知识,这样明年春招好歹有个不水的项目可以水一下了,现在这项目写完就是一个ssm堆出来的。。
补充
coursera上找的一门课程(课程大长了,大多数人肯定无法跟下来,有时间还不如去看下吴恩达的课呐。。),自制搜索引擎这本书好像都还挺不错的,欢迎各位网友的补充。。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
我之前使用开源全文搜索引擎Lucene做过毕设,大概就是先抓取数据,然后分词建立索引,最后对分词建立全文检索。
别的工具没用过,仅作为推荐,不妨可以一试~
我之前做过一个新闻的后台搜索,用的是solr(基于Lucene)+dubbo,效果还不错,solr支持直接对数据库进行索引,索引10W数据不到一分钟。分词插件是用IK分词。
crateDd 带SQL语言层的ES