pyspark编程对如下两个dataframe进行查询操作，如何提高效率?

发布于 2022-09-04 15:12:22 字数 1103 浏览 34 评论 0

1、有两个DataFrame：df1，df2都有共同的字段ACCTNO，df1中每行的ACCTNO字段唯一，需要遍历df1中的ACCTNO字段，并根据这些ACCTNO字段查询df2中对应的数据。
2、代码如下
`

def get_acctre(part,df2):
    for raw in part:
        ACCTNO = list(raw)[0]
        acct_df = df2.filter("ACCTNO ='"+ACCTNO+"'")
df1.foreachPartition(lambda part:get_acctre(part,df2))

`
3、根据分析，发现把df2作为get_acctre()的参数就会报如下错误

PicklingError: Could not serialize object: Py4JError: An error occurred while calling o624.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318)
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326)
    at py4j.Gateway.invoke(Gateway.java:272)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

4、由于df2不能作为参数传入函数get_acctre，如何才能高效率实现目的呢？才接触spark编程，还不熟悉相关函数，希望有大佬指点一二

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

别在捏我脸啦 2022-09-11 15:12:22

基本上是 JOIN 操作的思路吧，
df1 注册为一个table1
df2 注册为一个table2
采用SPARK SQL的方式，查询这两个表格

select 
    *
from 
    table1 as t1 
left join 
    table2 as t2
 on t1.key = t2.key

回复收藏 0

~没有更多了~

关于作者

美人迟暮

暂无简介

文章

29 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

pyspark编程对如下两个dataframe进行查询操作，如何提高效率?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

pyspark编程对如下两个dataframe进行查询操作，如何提高效率?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。