带有Pymongo的Mongo DB的洗牌数据

发布于 2025-01-18 14:30:28 字数 374 浏览 2 评论 0原文

我有一个带有100万个条目/行的Mongo DB数据库，约为20 GB数据。我想在批处理（使用Python和Pymongo）中随机迭代数据，例如10批次为100K。如果我有少量的数据，可以将其适合在内存中，我只需加载所有数据，然后随机洗牌，然后将其分成10批。但是在这种情况下，我无法将其全部适合记忆。因此，此选项是不可能的。我该如何完成此任务而无需将其安装到内存中？

我的一个想法是在称为“ Count”的Mongo DB中添加一个计数器列，该列将每个条目标记为1,2,3，…，100k。然后，我使用Python Algo将这些数字随机化。然后，我可以使用简单的过滤器提取批处理。这似乎是合理的吗？由于所有过滤器，似乎很慢。它似乎没有有效地扩展。

这似乎是一个非常标准的问题。有人有比我更好的解决方案吗？

原文

分享到QQ

分享到微博