使用最少的存储空间对大量数字进行洗牌

发布于 2024-11-09 19:49:41 字数 802 浏览 8 评论 0原文

我有一个非常大的数字范围/集合，(1..1236401668096)，我基本上想“洗牌”，即随机遍历而不重新访问相同的号码。我将运行一个 Web 服务，每次收到请求时，它都会增加一个计数器，并从范围中提取下一个“随机”数字。该算法必须适应服务器离线，能够使用计数器的持久值重新启动遍历（类似于如何为伪随机数生成器播种，并在给定种子和的情况下获得相同的伪随机数）您正在进行哪个迭代）。

我想知道这样的算法是否存在或可行。我见过 Fisher-Yates Shuffle，但第一步是到“写下从 1 到 N 的数字”，这将占用我的整个范围的 TB 存储空间。为每个请求生成伪随机数可能会工作一段时间，但随着数据库/树变满，冲突将变得更加常见，并且可能会降低性能（根据我的计算，在 10 亿次点击后，冲突的可能性已经是 0.08%）。对于我的场景是否有更理想的解决方案，或者这只是一个白日梦？

进行洗牌的原因是，能够正确猜测序列中的下一个数字可能会导致我的应用程序中出现一个较小的 DOS 漏洞，而且还因为数字分布更广泛时，表示层看起来会更好（我宁愿不这样做）详细了解应用程序的具体功能）。此时，我正在考虑仅使用 PRNG 并处理冲突或洗牌范围切片（从 (1..10000000).to_a.shuffle 开始，然后 (10000001, 20000000) .to_a.shuffle 等，因为每个范围的数字开始耗尽）。

那里有数学魔术师有更好的想法/建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

青衫负雪 2024-11-16 19:49:42

将 PRNG 或 LFSR 序列与 `/dev/random` 位连接

有多种算法可以生成具有任意大且已知周期的伪随机数。两个明显的候选算法是 LCPRNG (LCG) 和 LFSR，但还有更多算法，例如 Mersenne Twister。

这些发电机的周期可以很容易地构建以满足您的要求，这样您就不会发生碰撞。

您可以通过从 /dev/random 等接口添加 10、20 或 30 位加密散列熵来处理 PRNG 和 LFSR 的可预测行为。 因为数字的确定性部分已知是独一无二的，如果你重复它实际上随机的部分，那没有什么区别。

回复收藏 0 原文

伴我老 2024-11-16 19:49:42

分而治之？分解成可管理的块并对其进行打乱。您可以将数字范围除以它们的模 n 的值。该列表是建设性的并且相当小，具体取决于 n。当一组用完后，您可以使用下一组。

例如，如果您选择 n 为 1000，则会创建 1000 个不同的组。选择一个 1 到 1000 之间的随机数（我们称之为 x），然后对模 1000 等于 x 的数字进行洗牌。一旦你用尽了这个范围，你可以选择一个 1 到 1000 之间的新随机数（显然没有 x）来获得下一个要洗牌的子集。跟踪 1..1000 范围内的哪些数字已经被使用应该不是什么挑战，所以你只需要一个可重复的洗牌算法来处理子集中的数字（例如，Fisher-Yates 在其“索引”上） ”）。

回复收藏 0 原文