amazon-emr

amazon-emr

文章 0 浏览 5

一个区域中的 Airflow 作业提交另一区域中的 emr 作业

我们计划在美国西部地区建立一个通用的 AWS MWAA 集群,以触发不同地区的 emr 作业。 有没有办法通过在另一个区域运行的气流作业来触发一个区域的 emr…

烂柯人 2025-01-17 22:15:27 3 0

销毁资源时 EMR GetAutoTerminationPolicy 错误

使用 Terraform 销毁 AWS gov 云中的 EMR 资源时出现以下错误 │错误:获取自动终止策略时出错:UnknownOperationException:找不到操作 GetAutoTermi…

不寐倦长更 2025-01-16 19:23:35 2 0

减少镶木地板文件数量的最佳方法

我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…

凉宸 2025-01-15 18:12:09 2 0

EMR 作业运行时出现 AirFlow SIGTERM

我有一个 AriFlow DAG,其中每个步骤都是一个 AWS EMR 任务。一旦 AirFlow 到达其中一个步骤,它就会发送如下所示的 SIGTERM 信号。 {emr_step.py:73}…

神魇的王 2025-01-14 21:48:28 3 0

Spark 优化未按预期工作

我正在尝试在 pySpark 中运行一组不同的 SQL 操作。然而,优化并未按预期进行。 理想情况下,spark 在执行实际操作之前优化整个执行计划。 编写的逻辑…

长发绾君心 2025-01-13 05:06:59 2 0

处理 pytest 失败断言的最佳实践

我使用 pyspark、EMR、terraform 和气流进行触发。我正在我的 pyspark 代码中编写 pytest 用例。我有以下问题: I)如果我得到“False”断言。我正在…

小糖芽 2025-01-12 19:59:33 3 0

创建 EC2 实例配置文件作为 Terraform 中 EMR 的 IAM 角色的一部分

在 Terraform 中,我们可以创建自定义 EC2 角色 (emr-role-001),并且可以创建引用该角色的实例配置文件。但是,如果我们以这种方式创建它,EMR 将不…

浮华 2025-01-12 11:17:58 4 0

如何在 s3 上使用 Airflow - EMR - Spark 日志的自定义名称

当我通过 Airflow 在 EMR 上运行 Spark 作业时,我可以在 Spark 配置文件中指定 s3 上的日志目录。但日志随后会写入以集群 ID 命名的目录中。这同样适…

万劫不复 2025-01-12 07:04:46 2 0

如何使用 bash 命令将 EMR 步骤添加到 cloudformation

我尝试通过 Cloudformation 将以下步骤添加到我的 EMR 集群,但失败并提示文件未找到错误。我尝试转义双引号但没有用。 SetupHiveStep: Type: AWS::EM…

柳若烟 2025-01-12 05:15:12 2 0

如何使用本地 JAR 文件运行 Spark 结构化流

我正在 EKS 上使用 EMR 的 Docker 映像之一 (emr-6.5.0:20211119),并研究如何使用 Spark 结构化编程 (pyspark) 在 Kafka 上工作。根据 集成指南,我…

终弃我 2025-01-12 03:24:11 5 0

AWS EMR:在 cloudformation 中启用自动终止策略

我正在尝试在 EMR 中启用自动终止策略。以下是文档 https://docs。 aws.amazon.com/emr/latest/ManagementGuide/emr-auto-termination-policy.html 我…

度的依靠╰つ 2025-01-11 22:27:30 2 0

java.lang.VerifyError:google-ads API 和 SBT 的操作数堆栈溢出

我正在尝试从 EMR 中的 Spark 3.1.1 中的 Google-AdWords 迁移到 google-ads-v10 API。 由于与现有 jar 冲突,我面临一些依赖性问题。 最初,我们面临…

温柔嚣张 2025-01-11 06:07:05 3 0

Spark Application Master是否始终运行在EMR集群的主节点上

我有一个 EMR 集群(1 个主节点 1 个核心节点),我提交的 Spark 应用程序部署模式是集群模式。 从文档中,我知道 driver 在给定此部署模式的 Spark A…

橘虞初梦 2025-01-10 21:08:52 2 0

如何在 AWS EMR 中启动 Trino?

当我创建 EMR 集群时,在“应用程序”步骤中我选择了“Trino”。我可以确认这一点。 当我使用 SSH 连接到主节点并输入“presto --version”时,他们会…

喜你已久 2025-01-10 03:49:55 5 0

为什么任务和阶段编号是十进制数字 - Apache Spark

我试图理解使用 Spark (EMR) 时遇到的错误。 在该步骤的 stderr 中,有: TaskSetManager: Lost task 1435.6 in stage 152.0 (TID 102906) on ip-172-…

jJeQQOZ5 2025-01-09 13:00:48 3 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文