scala中的spark sql有多快?
数据库为hive,执行一句group by 语句,测试不同方式的效率:
第一种,用impalajdbc方式,返回arraylist,耗时10s
第二种,用spark.format.jdbc方式,返回dataframe,耗时3分钟;
开发语言均为scala,为啥差异那么大?
是不是有更好的方法提升执行效率
如果涉及多表关联,是否第一种方法依旧优于第二种方法?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论