是否可以使用EMR使用自定义Hadoop版本？

发布于 2025-02-11 07:46:55 字数 823 浏览 2 评论 0原文

截至今天（2022-06-28），AWS EMR最新版本为6.6.0，使用Hadoop 3.2.1。

我需要使用不同的Hadoop版本（3.2.2）。我尝试了以下方法，但它行不通。您可以设置发行标签或Hadoop版本，但不能同时进行。

client = boto3.client("emr", region_name="us-west-1")

response = client.run_job_flow(
    ReleaseLabel="emr-6.6.0",
    Applications=[{"Name": "Hadoop", "Version": "3.2.2"}]
)

似乎不是一种选择的另一种方法是，将特定的hadoop jar加载带有sparksession.builder.getorcreate（），就像这样：

spark = SparkSession \
        .builder \
        .config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.2') \
        .config('spark.hadoop.fs.s3a.impl', 'org.apache.hadoop.fs.s3a.S3AFileSystem') \
        .getOrCreate()

是否可以运行具有不同hadoop版本的EMR群集？如果是这样，一个人如何做到这一点？

原文

As of today (2022-06-28), AWS EMR latest version is 6.6.0, which uses Hadoop 3.2.1.

I need to use a different Hadoop version (3.2.2). I tried the following approach, but it doesn't work. You can either set ReleaseLabel or Hadoop version, but not both.

client = boto3.client("emr", region_name="us-west-1")

response = client.run_job_flow(
    ReleaseLabel="emr-6.6.0",
    Applications=[{"Name": "Hadoop", "Version": "3.2.2"}]
)

Another approach that seems to not be an option, is loading a specific hadoop jar with SparkSession.builder.getOrCreate(), like so:

spark = SparkSession \
        .builder \
        .config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.2') \
        .config('spark.hadoop.fs.s3a.impl', 'org.apache.hadoop.fs.s3a.S3AFileSystem') \
        .getOrCreate()

Is it even possible to run an EMR cluster with a different Hadoop version? If so, how does one go about doing that?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡水深流 2025-02-18 07:46:55

恐怕不是。 AWS不希望允许不支持的Hadoop版本的支持头痛，因此它们总是落后的，因为它们大概需要时间来测试每个新版本及其与其他Hadoop工具的兼容性。 https://docs.aws.aws.amazon.com/ EMR/最新/ReleaseGuide/emr-660-release.html 。

您必须在EC2中从头开始构建自己的群集。

回复收藏 0 原文