为什么在Amazon EMR上运行的SPARK应用程序的执行程序输入显示出比实际文件大小的处理更大?
我正在运行一个Amazon EMR群集,其中具有20个Spark应用程序,其中群集配置为1个主节点,而2个Worker节点为C5.24XLARGE实例。 为每个应用程序提供3个执行者和一个驱动程序。 但是 spark Web UI for Executor Input 我可以看到,我可以看到对执行者输入的输入大于文件大小到可以处理,而在Spark Web-UI的SQL选项卡中,输入仅与文件大小相同。 文件输入size 因此,它的工作很慢。
I am running an amazon emr cluster with 20 spark applications having cluster configurations as 1 master node and 2 worker node as c5.24xlarge instance.
Giving 3 executors and one driver to each application.
But spark web ui for executor input I can see input to executor is more than the file size to be processed, while in sql tab of spark web-ui, input is same as the file size only. file input size
due to this, it's working so slow.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
答案似乎没什么技术性的,但是如何在Spark Web UI上显示执行者的输入。
对执行者的输入不过是Spark本身设置的检查点时的输入之和。
意味着它不过是总数列表中显示的所有输入的总和,这是摘要。
这就是为什么Spark SQL选项卡仅显示适量的输入。
Answer seems to be nothing technical but how input is shown on spark web ui for executors.
This input to the executors is nothing but the sum of inputs at the time of checkpoints set by spark itself.
Means it is nothing but the sum of all inputs shown in the total tasks list, as it is summary.
That's why spark sql tab was showing the right amount of input only.