当前位置：文江博客话题详情

database information-retrieval inverted-index

创建巨大倒排索引的方法

发布于 2024-08-07 15:39:52 字数 252 浏览 19 评论 0 原文

我想创建一个大约 10⁶ 项的大型倒排索引。你会建议什么方法？我正在考虑快速二进制密钥存储数据库，如东京橱柜、伏地魔等。编辑：我过去曾尝试过使用 MySQL 来存储一个由两个整数组成的表来表示倒排索引，但即使如此由于第一列有数据库索引，查询速度非常慢。我认为对于这些情况，SQL 数据库有太多的开销、事务开销、查询解析等。我正在寻找哪些技术或算法方法可以在具有良好的响应时间和性能的同时进行扩展。我正在出于研究目的推出自己的解决方案。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

星星的轨迹 2024-08-14 15:39:52

这个问题有点模糊，所以我认为我能给出的唯一答案是：使用“广义倒排索引”(GIN 索引) 在 PostgreSQL 中创建任何你想要的倒排索引。所有艰苦的工作都为您完成：它使用预写日志来保证崩溃安全，内部使用 btree 结构来提高性能，并且它是成熟数据库管理系统的一部分。

如果您的问题是全文搜索，那么 postgresql 的全文搜索已经为您构建并且可以在内部使用 GIN。

回复收藏 0 原文

再浓的妆也掩不了殇 2024-08-14 15:39:52

你尝试推出自己的产品真是太酷了。也许研究 Lucene 的倒排索引文件格式？
http://lucene.apache.org/java/3_1_0/fileformats.html

回复收藏 0 原文

呢古 2024-08-14 15:39:52

是的，一定要考虑 Lucene 用于索引，因为它基本上是目前最杰出的索引器。事实上，我目前正在考虑用它来索引我的图像数据库。 “默认”语言是 Java，但它已被移植到其他语言，例如 CLucene 用于 C++ , PyLucene 用于 python。

可以找到快速教程此处。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

28 人气

关注发私信

相关话题

更多

推荐作者

关注

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文