第 4 页 - amazon-emr - 文江博客

投稿关注

amazon-emr

文章 0 浏览 5

EMR笔记本的跑步集群中的VENV中的numpy版本不匹配的numpy版本

尝试在使用 EMR 笔记本运行的集群上升级 numpy 版本。我的conf文件是： %%configure -f { "conf":{ "spark.pyspark.python": "python3", "spark.pysp…

々眼睛长脚气 2025-01-20 11:40:51 4 0

错误的安装枕头范围为AWS EMR笔记本

我正在尝试安装适用于 AWS EMR Notebook 的 pillow 包。当我在笔记本中运行以下命令时， sc.install_pypi_package("pillow") 出现一个很长的错误（如…

ゃ人海孤独症 2025-01-20 08:39:24 2 0

急流上的火花单节点

我正在尝试使用本指南在EMR上的急流单节上运行TPCD： https://docs.aws.amazon.com/emr/latest/releaseguide/emr-spark-rapids.html 但是获得比CPU最…

吝吻 2025-01-20 08:34:49 4 0

EMR - Airflow 运行 scala jar 文件airflow.exceptions.AirflowException

我正在尝试使用 emr 从 AIRFLOW 运行 scala jar 文件，该 jar 文件旨在读取 mssql-jdbc 和 postgresql。通过气流，我可以创建集群我的 SPARK_STEPS …

三月梨花 2025-01-19 23:44:31 2 0

使用 boto3 通过 VPC 内的 Lambda 启动 EMR 集群

我正在尝试使用使用Boto3和Python编写的AWS Lambda代码启动EMR群集。当没有VPC配置关联时，Lambda能够启动群集。但是，一旦添加VPC配置，它就无法启动…

羞稚 2025-01-19 18:01:09 2 0

使用 Docker 时的 EMR Spark 部署模式

我正在在AWS EMR中部署Spark Job，并使用Docker包装所有依赖关系。我的pythonized spark提交命令看起来像是这样 ... cmd = ( f"spark-submit --deploy…

傲性难收 2025-01-19 15:04:57 3 0

使用 AWS Glue 在两个 S3 存储桶之间加载数据时如何更新数据？

这是我的第一个数据分析项目，我正在 AWS 上开发数据管道，管道步骤应如下所示：以 parquet 格式将数据从 RDS 导出到 S3（完成）。使用 Athena 查询…

疯到世界奔溃 2025-01-19 11:26:51 5 0

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在EMR 6.5版上运行Trino，并且我为Trino添加了冰山连接器，我希望它使用胶水目录。这些是冰山下的配置。 connector.name=iceberg iceberg.file-form…

花桑 2025-01-19 11:05:55 4 0

如何通过slack获取EMR失败的确切原因？

当我的 pyspark 代码/引导程序失败并提供 EMR 失败的确切原因时，我需要收到松弛通知。我使用的是airflow 2.0，我使用on_failure_callback=task_fail…

浅语花开 2025-01-19 02:05:40 4 0

Spark 抱怨 AWS EMR 中缺少 java.library.path

我们有一个AWS EMR群集，可以在其中运行一些火花工作。工作是从EC2实例的Docker容器中提交的。所有运行的容器都在错误下面出现了Spark作业投诉。我尝…

寄居者 2025-01-18 11:32:10 2 0

aws emr cluster flink不运行任何罐子，而是给出java.lang.nosuchmethoderror

我尝试使用以下命令提交一个 jar 作为 AWS EMR 中的一个步骤： aws emr add-steps --cluster-id j-XXXXXXXXX --steps Type=CUSTOM_JAR,Name=test-job,…

半透明的墙 2025-01-18 07:53:44 2 0

如何从内存错误中解析EMR火花

我有一个 Spark 作业，正在尝试在 EMR 上执行。它给了我以下错误： java.lang.OutOfMemoryError: Java heap space -XX:OnOutOfMemoryError="kill -9 %…

遥远的绿洲 2025-01-18 06:34:08 3 0

Pip install 无法运行程序“pip” （在目录“.”中）：错误=2，没有这样的文件或目录--EMR通过气流触发

我正在尝试通过 Airflow 触发的 EMR 中的“添加步骤”(command-runner.jar) 安装requirements.txt。这是给予和错误错误： Cannot run program "pip"…

财迷小姐 2025-01-18 05:48:10 5 0

Spark RDD S3 saveAsTextFile 花费很长时间

我在 EMR 上有一个 Spark Streaming 作业，它以 30 分钟为一个批次运行，处理数据并最终将输出写入 S3 中的多个不同文件。现在，到 S3 的输出步骤花费…

清风挽心 2025-01-18 00:37:05 2 0

使用 EMR Spot 实例运行 Spark 作业的效率如何？

我想使用 EMR 现货实例来降低我的 Redshift 和 awsglue 成本，但在阅读了它们之后，我想知道如果我正在运行 30 分钟的作业，那么它被中断的可能性有多…

邮友 2025-01-17 23:25:41 4 0

共 7 页
上一页
2
3
4
5
6
下一页

友情链接

文江博客