当前位置：文江博客话题详情

Mongo Mapper中高效检索大数据集？

发布于 2024-10-15 03:27:31 字数 338 浏览 9 评论 0原文

我正在存储大量 Twitter 数据，并且希望一次检索大约 500k 条记录进行数据处理。我有一个 TwitterTweet mongo 文档，其中包含基本推文数据，并尝试按如下方式检索它：

weekly_tweets = TwitterTweet.all(:created_at.gt => 1.week.ago, :fields => [:created_at , :text, :from_user])

问题是，这会占用大量时间和内存 - 有什么方法可以使其更具可扩展性和效率。我曾考虑过使用映射缩减，但对于我想要做的事情来说，它看起来非常复杂 - 推文上的文本处理和正则表达式内容。

需要登录才能够评论，你可以免费注册一个本站的账号。

爱人如己 2024-10-22 03:27:31

不要调用 all，因为这会产生在 mongo 中创建所有 500k 条目的对象的效果，并且正如您注意到的那样，会使用大量内存和时间。使用 find_each 代替并迭代。 Find 返回一个游标，效率更高。

~没有更多了~

暂无简介

文章

26 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0