如何使用Spark中的IF语句删除RDD的列(使用Scala)
假设我有一个文本文件,每个条目都有几百个数据点。我想摆脱具有问号的任何列 - 使用掉落功能,然后挑选出来似乎很乏味。有更快的方法吗?
dataframe.map(x => ifcontainsquestionmarkdropcolumn(x))
之类的东西?
Suppose I have a text file where each entry has a couple hundred data points. I want to get rid of any column which has a question mark- using the drop function and picking it out seems tedious; is there a faster way?
Something like dataframe.map( x => ifcontainsquestionmarkdropcolumn(x))
?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
可以使用“sum”函数计算每列中问号的数量,并且可以删除数量非零的列:
结果为:
Number of question marks in each column can be calculated with "sum" function, and columns where number is non-zero can be dropped:
Result is: