搜索引擎中的倒排索引
我正在尝试编写一些代码来制作一个用于从文件中搜索文本的小型应用程序。
应该对文件进行爬网,并且我需要放置倒排索引来促进搜索。
我的问题是我对解析器的结构有一些想法;我愿意在查询中实现 AND、NOT、OR。
然而,我无法弄清楚我的索引应该如何......我从未创建过倒排索引,因此如果有人可以建议一种可行的方法来做到这一点,我将非常感激。理论上我确实知道它是如何工作的,但我的问题是我完全不知道如何在 MySql 中实现它。我还需要给被索引的关键字一个权重。
I'm trying to write some code to make a small application for searching text from files.
Files should be crawled, and I need to put an inverted index to boost searches.
My problem is that I kind of have ideas about how the parser would be; I'm willing to implement the AND, NOT, OR in the query.
Whereas, I couldn't figure out how my index should be... I have never created an inverted index so if anybody could suggest a feasible way to do it, I would be very grateful. I do know in theory how it works but my problem is I absolutely have no idea how to make happen in MySql. I need to give keywords being indexed a weight too.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这是一个简单的实现。 http://rosettacode.org/wiki/Inverted_Index
Here is a simple implementation. http://rosettacode.org/wiki/Inverted_Index
选择 1:Apache Solr/Lucene。选择2:mysql的全文索引支持。
Choice 1: Apache Solr/Lucene. Choice 2: mysql's full text index support.