如何创建一个列出复制行,然后仅删除R中的一个重复项的列?
我有一个非常庞大的数据集,我正在寻找最简单(最快)的方法来创建一列,从一个特定的列总和该值,然后继续仅留下一个重复项。
我的数据集看起来像这样:
data <- data.frame(DATE_INTER = c("2015-05-29", "2013-12-13", "2009-09-08"),
DATE_SAIDA = c("2015-06-10", "2013-12-15", "2009-10-20"),
GRUPO_AIH = c("09081997", "13122006", "13122006"),
DIAS_PERMANENCIA = c(12, 2, 42))
我需要使用“ grupo_aih”列检查重复。我的最终输出将是这样的:
我已经尝试过,但是它花费了太长时间,完成后,我什至无法用r停止工作的dplyr过滤。
data <- data %>%
group_by(GRUPO_AIH) %>%
mutate(DIAS_PERMANENCIA2 = sum(DIAS_PERMANENCIA))
有什么建议吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这是答案。只有一个观察结果,在您提供的数据集示例中,您在Grupo_aih变量中实际上没有任何重复的值,因此我更改为
grupo_aih = C(“ 09081997”,“ 131222006”,“ 131222006”
) sou sanitarista atuando com dados navigilânciakk
here is the answer. Just one observation, in your provided dataset example you dont really have any duplicated values in GRUPO_AIH variable so i changed to
GRUPO_AIH = c("09081997", "13122006", "13122006"),
OBS: também sou sanitarista atuando com dados na vigilância kk
如果您有一个“非常大的数据集”(数百万行),也许这将是最快的:
由。 nofollow noreferrer“> reprex软件包(v2.0.1)
基准标准:
由reprex软件包在2022-05-31创建(v2.0.1 )
If you have a "very large dataset" (millions of rows) perhaps this will be fastest:
Created on 2022-05-31 by the reprex package (v2.0.1)
Benchmarking:
Created on 2022-05-31 by the reprex package (v2.0.1)