Spark RDD S3 saveAsTextFile 花费很长时间

发布于 2025-01-18 00:37:05 字数 897 浏览 2 评论 0原文

我在 EMR 上有一个 Spark Streaming 作业，它以 30 分钟为一个批次运行，处理数据并最终将输出写入 S3 中的多个不同文件。现在，到 S3 的输出步骤花费的时间太长（大约 30 分钟）才能将文件写入 S3。经过进一步调查，我发现大部分时间是在所有任务将数据写入临时文件夹之后（发生在 20 秒内），其余时间是由于主节点正在从 移动 S3 文件>_temporary 文件夹到目标文件夹并重命名它们等。（类似于：Spark：作业之间的长时间延迟）

有关作业配置、文件格式等的其他一些详细信息如下如下：

EMR 版本：emr-5.22.0
Hadoop 版本：Amazon 2.8.5
应用程序：Hive 2.3.4、Spark 2.4.0、Ganglia 3.7.2
S3 文件：完成使用 RDD saveAsTextFile API 和 S3A URL，S3 文件格式是文本

现在虽然 EMRFS 输出提交器在作业中默认启用，但它不起作用，因为我们使用的是 RDD 和发布后支持的文本文件格式仅限 EMR 6.40 版本。我能想到的优化 S3 保存时间的一种方法是升级 EMR 版本，将 RDD 转换为 DataFrames/Datasets 并使用它们的 API 而不是 saveAsTextFile。是否有其他更简单的解决方案可以优化工作所需的时间？

原文