使用每个组的前 n 行对数据框进行子集化,并按变量排序
我想对 n 行数据帧进行子集化,这些行按一个变量分组,并按另一个变量降序排序。通过一个例子就可以清楚地看出这一点: d1 <- data.frame(Gender = …
循环在 ddply 中创建新变量
我正在使用 ddply 来聚合和汇总数据框变量,并且我有兴趣循环遍历数据框的列表以创建新变量。 new.data <- ddply(old.data, c("factor", "factor2")…
如何将R中公共列上的两个数据框与其他数据框的总和合并?
Windows 7 上的 R 版本 2.11.1 32 位 我有两个数据集:data_A 和 data_B: data_A USER_A USER_B ACTION 1 11 0.3 1 13 0.25 1 16 0.63 1 17 0.26 2 1…
使用 ddply 进行汇总统计
我喜欢使用 ddply 编写一个函数,根据 data.frame mat 两列的名称输出摘要统计信息。 mat 是一个大的data.frame,其列名称为“metric”、“length”、…
ddply 返回太多结果
由于某种原因,自从升级到 R-2.13.0 以及升级到 plyr_1.5.1.tar.gz 以来,我得到的结果比我预期的要多...我在旧版本的 plyr 上尝试了这个(不幸的是版…
doMC、doSNOW、doSMP 与 doMPI:为什么“foreach”的各种并行后端不可用?功能等价?
我已经在不同的机器上运行了一些测试代码,总是得到相同的结果。我认为各种 do... 包背后的理念是它们可以互换用作 foreach 的 %dopar% 的后端。为什…
如何让 doSMP 与 plyr 完美配合?
此代码有效: library(plyr) x <- data.frame(V= c("X", "Y", "X", "Y", "Z" ), Z = 1:5) ddply(x, .(V), function(df) sum(df$Z),.parallel=FALSE)…
R 中最快的高宽旋转
我正在处理一个简单的表格,其形式为 date variable value 1970-01-01 V1 0.434 1970-01-01 V2 12.12 1970-01-01 V3 921.1 1970-01-02 V1 -1.10 1970-…
如何重写“sapply”命令来提高性能?
我有一个名为“d”的 data.frame,约 1,300,000 行和 4 列,另一个名为“gc”的 data.frame,约 12,000 行和 2 列(但请参阅下面的较小示例)。 d <…
如何加快summary和ddply的速度?
我有一个包含 200 万行和 15 列的数据框。我想用 ddply 对其中 3 列进行分组(所有 3 列都是因子,这些因子有 780,000 个独特的组合),并获得 3 列的…