一个区域中的 Airflow 作业提交另一区域中的 emr 作业
我们计划在美国西部地区建立一个通用的 AWS MWAA 集群,以触发不同地区的 emr 作业。 有没有办法通过在另一个区域运行的气流作业来触发一个区域的 emr…
销毁资源时 EMR GetAutoTerminationPolicy 错误
使用 Terraform 销毁 AWS gov 云中的 EMR 资源时出现以下错误 │错误:获取自动终止策略时出错:UnknownOperationException:找不到操作 GetAutoTermi…
减少镶木地板文件数量的最佳方法
我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…
EMR 作业运行时出现 AirFlow SIGTERM
我有一个 AriFlow DAG,其中每个步骤都是一个 AWS EMR 任务。一旦 AirFlow 到达其中一个步骤,它就会发送如下所示的 SIGTERM 信号。 {emr_step.py:73}…
处理 pytest 失败断言的最佳实践
我使用 pyspark、EMR、terraform 和气流进行触发。我正在我的 pyspark 代码中编写 pytest 用例。我有以下问题: I)如果我得到“False”断言。我正在…
创建 EC2 实例配置文件作为 Terraform 中 EMR 的 IAM 角色的一部分
在 Terraform 中,我们可以创建自定义 EC2 角色 (emr-role-001),并且可以创建引用该角色的实例配置文件。但是,如果我们以这种方式创建它,EMR 将不…
如何在 s3 上使用 Airflow - EMR - Spark 日志的自定义名称
当我通过 Airflow 在 EMR 上运行 Spark 作业时,我可以在 Spark 配置文件中指定 s3 上的日志目录。但日志随后会写入以集群 ID 命名的目录中。这同样适…
如何使用 bash 命令将 EMR 步骤添加到 cloudformation
我尝试通过 Cloudformation 将以下步骤添加到我的 EMR 集群,但失败并提示文件未找到错误。我尝试转义双引号但没有用。 SetupHiveStep: Type: AWS::EM…
如何使用本地 JAR 文件运行 Spark 结构化流
我正在 EKS 上使用 EMR 的 Docker 映像之一 (emr-6.5.0:20211119),并研究如何使用 Spark 结构化编程 (pyspark) 在 Kafka 上工作。根据 集成指南,我…
AWS EMR:在 cloudformation 中启用自动终止策略
我正在尝试在 EMR 中启用自动终止策略。以下是文档 https://docs。 aws.amazon.com/emr/latest/ManagementGuide/emr-auto-termination-policy.html 我…
java.lang.VerifyError:google-ads API 和 SBT 的操作数堆栈溢出
我正在尝试从 EMR 中的 Spark 3.1.1 中的 Google-AdWords 迁移到 google-ads-v10 API。 由于与现有 jar 冲突,我面临一些依赖性问题。 最初,我们面临…
Spark Application Master是否始终运行在EMR集群的主节点上
我有一个 EMR 集群(1 个主节点 1 个核心节点),我提交的 Spark 应用程序部署模式是集群模式。 从文档中,我知道 driver 在给定此部署模式的 Spark A…
如何在 AWS EMR 中启动 Trino?
当我创建 EMR 集群时,在“应用程序”步骤中我选择了“Trino”。我可以确认这一点。 当我使用 SSH 连接到主节点并输入“presto --version”时,他们会…
为什么任务和阶段编号是十进制数字 - Apache Spark
我试图理解使用 Spark (EMR) 时遇到的错误。 在该步骤的 stderr 中,有: TaskSetManager: Lost task 1435.6 in stage 152.0 (TID 102906) on ip-172-…