当前位置：文江博客话题详情

如何使用Spark中的IF语句删除RDD的列（使用Scala）

发布于 2025-01-20 05:08:27 字数 160 浏览 5 评论 0原文

假设我有一个文本文件，每个条目都有几百个数据点。我想摆脱具有问号的任何列 - 使用掉落功能，然后挑选出来似乎很乏味。有更快的方法吗？

dataframe.map（x =＆gt; ifcontainsquestionmarkdropcolumn（x））之类的东西？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

烈酒灼喉 2025-01-27 05:08:28

可以使用“sum”函数计算每列中问号的数量，并且可以删除数量非零的列：

val df = Seq(("nomark", "question?mark"))
  .toDF("expected", "dropped")

val questionCountColumns = df
  .columns
  .map(c => sum(when(col(c).contains("?"), 1).otherwise(0)).alias(c))

val questionCountRow = df.select(questionCountColumns: _*).first()

val columnsToDrop = df
  .columns
  .filter(c => questionCountRow.getAs[Long](c) > 0)

val result = df.drop(columnsToDrop: _*)

结果为：

+--------+
|expected|
+--------+
|nomark  |
+--------+

Number of question marks in each column can be calculated with "sum" function, and columns where number is non-zero can be dropped:

val df = Seq(("nomark", "question?mark"))
  .toDF("expected", "dropped")

val questionCountColumns = df
  .columns
  .map(c => sum(when(col(c).contains("?"), 1).otherwise(0)).alias(c))

val questionCountRow = df.select(questionCountColumns: _*).first()

val columnsToDrop = df
  .columns
  .filter(c => questionCountRow.getAs[Long](c) > 0)

val result = df.drop(columnsToDrop: _*)

Result is:

+--------+
|expected|
+--------+
|nomark  |
+--------+

回复收藏 0 原文

~没有更多了~

关于作者

韬韬不绝

暂无简介

文章

808 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

如何使用Spark中的IF语句删除RDD的列（使用Scala）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如何使用Spark中的IF语句删除RDD的列（使用Scala）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。