当前位置：文江博客话题详情

NoSQL Redis large-data

关于实施快速有效的方法来搜索非常大的数据集中的项目列表的建议/意见

发布于 2025-01-08 06:16:56 字数 684 浏览 0 评论 0原文

请评论和批评该方法。

场景：我在一个平面文件中有一个大型数据集（2 亿个条目）。数据的形式为 - 10 位数字电话号码后跟 5-6 个二进制字段。每周我都会收到一个 Delta 文件，其中仅包含数据的更改。

问题：给定一个项目列表，我需要弄清楚每个项目（这将是 10 位数字）是否存在于数据集中。

我计划的方法：

将解析数据集并将其放入数据库（在开始时完成）周），例如 MySQL 或 Postgres。我想在 RDBMS 中使用 RDBMS 的原因第一步是我想要完整的时间序列数据。
然后从该数据库中生成某种键值存储最新有效数据，支持操作判断是否每个项目是否存在于数据集中（考虑某种 NOSQL db，就像这里的 Redis 一样，针对搜索进行了优化。应该有持久性和分布式）。 此数据结构将是只读的。
查询此键值存储以查明每个项目是否存在（如果可能的话，一次匹配一个值列表而不是匹配一次一项）。希望这一切能够快如闪电。 将使用此功能作为 REST API 的后端

旁注：我喜欢的语言是 Python。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

薆情海 2025-01-15 06:16:56

快速查找的一些注意事项：

如果您想一次检查一组数字，您可以使用执行集合交集的 Redis SINTER。
您可能会受益于使用网格结构，通过在某些哈希函数上分配数字范围，例如电话号码的第一位（可能有更好的，您必须进行实验），例如，当使用最佳哈希，使用 10 个节点时接近 2000 万个条目。
如果您预计会出现重复请求（这种情况很可能发生），您可以将最后 n 个请求的电话号码缓存在较小的集合中，然后首先查询该电话号码。

回复收藏 0 原文

~没有更多了~

关于作者

两人的回忆

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

紫罗兰の梦幻

文章 0 评论 0

-2134

文章 0 评论 0

liuxuanli

文章 0 评论 0

意中人

文章 0 评论 0

○愚か者の日

文章 0 评论 0

xxhui

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文