如何对超过20000个uniq key进行分组？

发布于 2024-12-25 02:59:12 字数 491 浏览 3 评论 0原文

我有两个例子：

results = coll.group( key={"ip": 1, "id" : 1 }, condition= {}, initial={},
reduce="function(obj,prev) {}" )
print len(results)

以及：

map = Code(
"function () {"
"emit({ id: this.id, ip: this.ip}, {count: 1});"
"}"
)

reduce = Code("function (key, values) {""}")
result = coll.map_reduce(map, reduce, "map_reduce_example")
print result.count()

为什么第二个例子比第一个例子慢？我想使用 2 个示例而不是 1 个示例，因为 1 个示例不适用于超过 20000 个 uniq 密钥。

原文

I have 2 examples:

results = coll.group( key={"ip": 1, "id" : 1 }, condition= {}, initial={},
reduce="function(obj,prev) {}" )
print len(results)

and:

map = Code(
"function () {"
"emit({ id: this.id, ip: this.ip}, {count: 1});"
"}"
)

reduce = Code("function (key, values) {""}")
result = coll.map_reduce(map, reduce, "map_reduce_example")
print result.count()

Why second example more slowly than first ? I want to use 2 example instead of 1 example because 1 example not work for more than 20000 uniq key.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

抱猫软卧 2025-01-01 02:59:12

MongoDB 的新聚合框架可能会解决您的问题，但在那之前我建议将map/reduce作为定期安排的后台作业运行并实时查询map/reduce产生的集合。这将更快地获得分组计数结果，但计数可能会稍微陈旧（取决于上次完成背景地图缩减的时间。）

说明：

MongoDB 的 map/reduce 比 group() 慢得多，原因如下：

中间转换：BSON -> JSON-> BSON-> JSON-> BSON（MongoDB 以二进制 BSON 存储数据，但 JavaScript map() 和 reduce() 需要输入文本 JSON）
Javascript 函数 map() 和 reduce() 必须由单线程 JavaScript 引擎解释

MongoDB 的本机 C聚合函数要快得多，但它们的局限性之一是所有输出必须适合单个 BSON 文档（当前为 16MB）。 这就是唯一键的数量受到限制的原因。

MongoDB 的聚合框架将结合这两种方法的优点：