我们如何在Pyspark中编写一个UDF,以解析复杂列数据
我有列值的形式 {“ 1”:“ MediaMaAadadeFtch || Oaisaoid | true | modsversio | 67900 | 67900 | clk | true | ppooos | 202201010164113 | 34958 | 34958 | 38177557 ..}
这不是json格式,有些值是管道分离的,有些值是双管间隔的,我们如何编写一个打破此值并转换为多列的
UDF 1 | MediaMaAadadeftch | oaisaoid | true | ..
I have column values which is of the form of
{"1":"mediaMaaadadeftch||OAISAOID|true|ModsVersio|67900|clk|true|PPOOOS|20220501164113|34958|38177557..}
This is not a json format, some values are pipe separated and some are double pipe separated, how can we write a udf which breaks this value and convert into multiple columns.
col_1|col_2|col_3|col_4|..
1|mediaMaaadadeftch|OAISAOID|true| ..
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以通过CSV文件
将数据存储在CSV文件中,
而不是编写UDF,而是用双管“ ||”加载列。将是无效的,因此,如果您不需要这些列,则可以删除它们
instead of writing udf , you can do it by csv file
store the data in a csv file and load it
columns with double pipe "||" will be null , so if you don't need those columns you can remove them