索引引擎
我正在开发上下文发现系统 - 这是搜索和建议的组合。
目前我正在寻找用于索引的库。
经过一番调查后,我留在了 Lucene 和 Terrier 上,发现 Indri 不舒服。
两者都有什么缺点?使用它们时我会遇到什么问题?
Terrier 真的没有增量索引吗(每次添加新文档时,我都需要重建并重新索引所有内容)?
我的要求是: - 轻松添加新文档 - 简单的得分方法注入 - 安静且定义明确的模型
还有一件事:梗犬还活跃吗?自 2010 年 10 月 3 日以来,我没有看到任何更新 terrier 变更日志
I'm developing context discover system - which is mix of searching and suggestions.
Currently I'm looking for library for indexing.
After some investigation I stayed on Lucene and Terrier and found Indri not comfortable.
What are the downsides of both? What problem I can meet while using them?
Is it true that Terrier doesn't have incremental indexing (every time new document is added, I need to rebuild and reindex everything)?
My requirements are:
- easy adding new documents
- easy score methods injection
- quiet well defined model
And one more thing: is Terrier still active? I haven't seen any update since 10/03/2010 terrier changelog
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您将使用什么类型的数据库?根据我的经验,Lucene 的文档比 Terrier 好得多。
这是一篇比较 Lucene 和 Terrier 的文章:
http://text -analytics.blogspot.com/2011/05/java-based-retrieval-toolkits.html
What sort of database are you going to be using? Lucene, in my experience, is much better documented than Terrier.
Here's an article comparing Lucene and Terrier:
http://text-analytics.blogspot.com/2011/05/java-based-retrieval-toolkits.html