当前位置：文江博客话题详情

使用 Sparklyr 在 Spark 中使用 dplyr 枢轴函数

发布于 2025-01-13 14:18:46 字数 241 浏览 2 评论 0原文

我正在使用来自 CMS 的大型数据集，它当前存储在连接到我的 Spark 集群的 Hive 表中。

到目前为止，我还无法让 dplyr 枢轴函数工作，所以我一直在收集数据，然后在 R 中的数据上运行一大堆 dplyr 动词。

我最近用完了一些我的内存最新的处理步骤，我想知道我的操作是否可以在 Spark 中完成，而不是在本地完成。

TL;DR

dplyrivot_longer 是否在 Spark 上运行？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

叶落知秋 2025-01-20 14:18:46

事实证明，您可以在 Spark 数据帧上运行 dplyr 动词，回到我的纱线集群上的绘图板

library(sparklyr)
library(tidyverse)

spark_install(version = "3.0.3", hadoop_version = "3.2")

spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')

sc <- spark_connect(master = "local")

tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")

x <- tbl_mtcars %>% 
  group_by(cyl) %>% 
  pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
  collect()

Turns out you can run dplyr verbs on spark dataframes, back to the drawing board on my yarn cluster

library(sparklyr)
library(tidyverse)

spark_install(version = "3.0.3", hadoop_version = "3.2")

spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')

sc <- spark_connect(master = "local")

tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")

x <- tbl_mtcars %>% 
  group_by(cyl) %>% 
  pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
  collect()

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

琉璃梦幻

文章 0 评论 0

qq_4zWU6L

文章 0 评论 0

话少情深

文章 0 评论 0

西西弗的石头怪

文章 0 评论 0

彻夜缠绵

文章 0 评论 0

千寻…

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文