在大 df 上进行 Groupby 或聚合

发布于 2025-01-10 08:32:20 字数 979 浏览 0 评论 0原文

我不明白如何对 R 中的大型 df 进行分组。

第 0-12 列是标识符，是唯一的，我想将它们保留为原样，

我已经尝试了多种变体，

aggregate(cbind(names(preferences[-c(0, 12)])) ~ 
            cbind(names(preferences[c(0, 12)])), data=preferences, FUN=sum)

我得到了

Error in model.frame.default(formula = cbind(names(preferences[-c(0, 12)])) ~  : 
  variable lengths differ (found for 'cbind(names(preferences[c(0, 12)]))')

a  b     c   d   e
1  f(1)  11  2   15
1  f(1)  12  2   15
2  f(2)  13  4   3
2  f(2)  14  6   4
3  f(3)  15  5   6

a  b     c   d   e
1  f(1)  23  4   30
2  f(2)  27  10  7
3  f(3)  15  5   6

Python 等效项 < code>df[11:624].groupby(by=col11)

df 是 48GB，所以速度很重要（python 由于内存不足（250GB）

而崩溃）收到答案我去看了一些基准测试这太快了！！！！

原文

I'm not understanding how to groupby on a large df in R.

Columns 0-12 are identifiers, unique, and I would like to leave them as is

I've tried a number of variations of this

aggregate(cbind(names(preferences[-c(0, 12)])) ~ 
            cbind(names(preferences[c(0, 12)])), data=preferences, FUN=sum)

I'm getting

Error in model.frame.default(formula = cbind(names(preferences[-c(0, 12)])) ~  : 
  variable lengths differ (found for 'cbind(names(preferences[c(0, 12)]))')

a  b     c   d   e
1  f(1)  11  2   15
1  f(1)  12  2   15
2  f(2)  13  4   3
2  f(2)  14  6   4
3  f(3)  15  5   6

a  b     c   d   e
1  f(1)  23  4   30
2  f(2)  27  10  7
3  f(3)  15  5   6

Python equivalent df[11:624].groupby(by=col11)

df is 48GB so speed matters (python crashes due to a lack of memory(250GB))

After receiving an answer I went and looked at some benchmarks and this is fast as heck!!!!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

世界等同你 2025-01-17 08:32:20

library(data.table)

setDT(df)

x <- names(df)[13:ncol(df)]

y <- names(df)[1:12]

df_2 <- df[, lapply(.SD, \(i) sum(i)), .SDcols=x, by=y]

不过要注意 R 与 Python 中的索引。 R 从 1 开始计数（而 Python 的索引为零）

library(data.table)

setDT(df)

x <- names(df)[13:ncol(df)]

y <- names(df)[1:12]

df_2 <- df[, lapply(.SD, \(i) sum(i)), .SDcols=x, by=y]

Though be aware of indexing in R vs Python. R starts counting from 1 (whereas Python has zero indexing)

回复收藏 0 原文

~没有更多了~

关于作者

爱，才寂寞

暂无简介

文章

26 人气

关注发私信

琉璃梦幻

文章 0 评论 0

关注

qq_4zWU6L

文章 0 评论 0

关注

话少情深

文章 0 评论 0

关注

西西弗的石头怪

文章 0 评论 0

关注

彻夜缠绵

文章 0 评论 0

关注

千寻…

文章 0 评论 0

友情链接

文江博客

在大 df 上进行 Groupby 或聚合

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

在大 df 上进行 Groupby 或聚合

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。