使用 Sparklyr 在 Spark 中使用 dplyr 枢轴函数

发布于 2025-01-13 14:18:46 字数 241 浏览 2 评论 0原文

我正在使用来自 CMS 的大型数据集,它当前存储在连接到我的 Spark 集群的 Hive 表中。

到目前为止,我还无法让 dplyr 枢轴函数工作,所以我一直在收集数据,然后在 R 中的数据上运行一大堆 dplyr 动词。

我最近用完了一些我的内存最新的处理步骤,我想知道我的操作是否可以在 Spark 中完成,而不是在本地完成。

TL;DR

dplyrivot_longer 是否在 Spark 上运行?

I'm working with a large dataset from CMS and it's currently stored in a Hive table connected to my Spark cluster.

To date I haven't been able to get dplyr pivot functions to work so I've been collecting the data and then running a whole bunch of dplyr verbs on the data in R.

I've recently run out of memory with some of my latest processing steps and I'm wondering if my manipulations can be done in Spark rather than locally.

TL;DR

Does dplyr pivot_longer run on Spark?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

叶落知秋 2025-01-20 14:18:46

事实证明,您可以在 Spark 数据帧上运行 dplyr 动词,回到我的纱线集群上的绘图板

library(sparklyr)
library(tidyverse)

spark_install(version = "3.0.3", hadoop_version = "3.2")

spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')

sc <- spark_connect(master = "local")

tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")

x <- tbl_mtcars %>% 
  group_by(cyl) %>% 
  pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
  collect()

Turns out you can run dplyr verbs on spark dataframes, back to the drawing board on my yarn cluster

library(sparklyr)
library(tidyverse)

spark_install(version = "3.0.3", hadoop_version = "3.2")

spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')

sc <- spark_connect(master = "local")

tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")

x <- tbl_mtcars %>% 
  group_by(cyl) %>% 
  pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
  collect()
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文