hadoop

hadoop

文章 899 浏览 342

dfs.replication.max 的含义是什么

关于 HDFS dfs.replication.max 的含义是什么? 来自文档 - https:/ /hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.…

篱下浅笙歌 2025-01-10 08:34:04 0 0

Spark-Shell 的 hadoop 中的 JAVA_HOME 错误

我需要安装 Hadoop 才能在我的 WSL2 Ubuntu 上运行 Spark 以用于学校项目。我按照这两个教程安装了 Hadoop 3.3.1 和 Spark 3.2.1 : Kontext.tech 上…

送君千里 2025-01-10 05:43:07 0 0

方案“s3”没有文件系统尝试使用 Spark 从 EC2 读取文件列表时

我试图提供一个文件列表,供 Spark 在需要时读取(这就是为什么我宁愿不使用 boto 或其他任何东西将所有文件预先下载到实例上,然后才将它们读入火花…

无力看清 2025-01-10 05:30:04 0 0

引起:java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

我在尝试将 txt 文件写入 Windows 中的本地路径时收到此错误。 错误: 引起:java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.Native…

鹿童谣 2025-01-10 01:13:06 1 0

“初始化脚本执行失败”运行 tpch-setup.sh 时出错

我按照说明运行 hive tpch https://github.com/hortonworks/hive-testbench .git 我正在使用 Cloudera Enterprise Trial 7.3.1 运行 tpch-setup.sh。…

终遇你 2025-01-09 22:06:47 0 0

使用 parquet 文件在 Impala 表中进行类型转换

我在使用镶木地板文件将 Impala 的列类型从 string 更改为 int 时遇到问题。 使用: alter table DATABASE.TABLE更改COL COL Int(从字符串到int) 或…

始于初秋 2025-01-09 21:11:30 0 0

自定义端点上来自 s3a 的 Spark 加载数据停止

我试图在 Spark 集群上执行一个简单的操作,只需在 pyspark --master yarn 中运行以下代码: op = spark.read.format("csv") op = op.options(header=…

夕嗳→ 2025-01-09 16:57:21 0 0

无法识别“>”附近的输入',' “计数”在选择目标命令中使用 ret '64' 退出

我正在尝试执行下面的查询: INSERT OVERWRITE DIRECTORY '${OUTPUT}/os_requests/' SELECT OS, '—>', COUNT(*) FROM cloudfront_logs WHERE DateLog…

娇俏 2025-01-09 16:40:46 0 0

Ceph 的 Hadoop 存档实用程序替代方案

我的基于 HDFS 的存储上有一些 HAR 文件(Hadoop 存档文件),其中有一些不经常使用的存档数据。 现在我们计划转向基于 Ceph 的存储。所以我有两个问…

暮倦 2025-01-09 15:40:32 0 0

在我的 Windows 系统上运行 Spark-Shell 和 pyspark 时出错

谁能帮我解决这个问题?我一直在尝试在我的机器上安装并运行 Spark,以便能够在 scala 和 pyspark 中完成一些工作,但当我尝试在我的机器上运行 Spark…

念﹏祤嫣 2025-01-09 15:25:42 0 0

Pyspark 未创建 SparkContext (Yarn)。网关故障或网络流量被阻止?

这是我安装 pyspark 二进制文件的一些上下文。 在我的公司,我们使用 Cloudera Data Science Workbench (CDSW)。当我们为新项目创建会话时,我猜测它…

西瑶 2025-01-09 13:04:12 0 0

一个 distcp 命令可将多个文件上传到 s3(无目录)

我目前正在使用 Hadoop/HDFS 的 s3a 适配器,以允许我将多个文件从 Hive 数据库上传到特定的 s3 存储桶。我很紧张,因为我在网上找不到任何有关通过 d…

江南烟雨〆相思醉 2025-01-09 09:54:44 0 0

运行 hive tpch-setup 时出错:java.lang.IllegalAccessError:类 org.apache.hadoop.hdfs.web.HftpFileSystem 无法访问其超级接口

我正在尝试按照 https://github.com/hortonworks/ 的指令运行 hive tpcdh hive-testbench.git 。我遇到了以下错误。 tpcds-setup 中未出现此问题。 这…

温柔戏命师 2025-01-09 09:08:32 1 0

在集群中的执行器上运行 python 脚本 [Scala/Spark]

我有 python 脚本: import sys for line in sys.stdin: print("hello " + line) 我在集群中的工作人员上运行它: def run(spark: SparkSession) = { …

浅唱々樱花落 2025-01-09 04:43:10 1 0

如何在 Hive 中编写非等值连接

我的表包括 3 个日期列: dateA 、 dateB 和 dateC 我的要求: JOIN ON dateA between dateB and dateC JOIN 在 Teradata 中运行得很好,但在 Hive 中…

尐籹人 2025-01-09 02:05:44 1 0
更多

推荐作者

微信用户

文章 0 评论 0

小情绪

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

笨死的猪

文章 0 评论 0

彭明超

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文