HDFS

HDFS

文章 118 浏览 213

dis' hdfs dfs -cp'使用 /TMP作为其实施的一部分

试图调查 /TMP填充的问题,我们不知道是什么原因引起的。我们确实有一个更改,该更改使用HDFS命令将副本执行到另一个主机( hdfs dfs -cp/source/file…

情痴 2025-01-23 06:57:04 5 0

用Scala计数HDFS目录中的文件

在Scala中,我正在尝试计算HDFS目录的文件。 我尝试获取具有 val files = fs.listfiles(path,false)的文件列表,并依靠它或获取大小,但它不适用于…

嘿看小鸭子会跑 2025-01-23 01:23:26 3 0

如何在Ubuntu上与HDF一起运行MRJOB?

我在Ubuntu上设置Hadoop 3.3.1。我可以使用HFDS正常运行JAR文件(使用Eclipse,添加hadoop的加法罐子,然后导出)。运行MRJOB本地正常状态,但是当我…

ペ泪落弦音 2025-01-22 09:40:21 3 0

从HDFS阅读时,如何跳过木板列?

我们都知道Parquet是面向列的,因此我们只能获得所需的列并减少IO。 如果镶木quet文件存储在HDFS中,我们应该先下载整个文件,然后在本地应用列过滤器…

时光礼记 2025-01-22 07:58:34 2 0

蜂巢表加载来自HDFS位置的数据,并带有处理的重复文件

如果每日文件加载HDFS位置的特定路径,则存在场景。在该路径的基础上,我们创建了Hive外部表,将数据加载到Hive中的表中。最糟糕的情况将文件推到特定…

要走干脆点 2025-01-22 02:40:20 3 0

使用Pyspark和HDFS创建新的CSV文件并上传数据

我想使用pyspark在HDF中创建一个CSV文件,并在其中放置一些数据。…

平定天下 2025-01-21 17:10:20 1 0

erreur:httpconnectionpool(host =' dnode2',port = 9864):用url: /webhdfs超过了最大检索

我正在尝试在与Docker一起部署的Python应用程序中的HDFS服务器上读取文件,在DEV期间,我没有任何问题,但是在prod中,有一个错误: erreur:httpconn…

还不是爱你 2025-01-21 16:18:47 3 0

无法创建数据库,因为它已经存在,但是它不是T

我想使用命令创建Hive数据库: create database sbx_products_diff 但是它失败了以下错误: jdbc:hive2:// myhost>创建数据库SBX_PRODUCTS_DIFF…

梦里的微风 2025-01-21 06:34:14 3 0

为什么在HBase中不可能进行聚合?

我想知道为什么 HBase 本身不支持诸如 SUM / AVG 之类的聚合操作。我了解到有几种解决方法可以实现相同的目的,但是虽然有这些解决方法,但为什么 HBa…

素染倾城色 2025-01-20 17:50:01 3 0

FileNotFoundError: [Errno 2] 将文件放入 hdfs 时没有这样的文件或目录

我在 python 中使用 subprocess.popen 将文件放入HDFS中。它可以使用Windows cmd 上的Python准确地运行。但是,当我使用vscode运行代码时,我会得到“…

一束光,穿透我孤独的魂 2025-01-20 16:29:39 2 0

如何使用Scala从HDFS目录中删除所有文件

对于我目前正在使用 Scala 和 Spark 进行的项目,我必须编写一个代码来检查我正在处理的 hdfs 目录是否为空,如果不是,我必须从该目录中删除所有文件…

香草可樂 2025-01-20 02:47:10 3 0

HDFS文件系统,使用Scala API获取最新文件夹

我们的应用程序从多个 HDFS 数据文件夹中读取数据,文件夹每周/每天/每月更新一次,因此根据更新周期,我们需要找到最新的路径,然后读取数据。 我们…

此刻的回忆 2025-01-19 21:47:10 1 0

HDFS中的数据码与纱线的Node Manager之间的连接/关系是什么?

我正在阅读有关纱线和Hadoop文件系统的基础知识。一些博客在线告诉我,纱线只是资源管理系统,HDFS与存储有关。但是我在《 hadoop deveritive指南》一…

滴情不沾 2025-01-19 13:34:07 4 0

Spark Write(Parquet)到本地HDFS花费很长时间

上下文: 我有一个非常简单的 scala/spark 作业,我通过 SPARK JDBC READ 从 Microsoft SQL Server 关系数据库中的表中读取数据。读取的数据进入 Data…

决绝 2025-01-19 12:11:14 2 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值,但是当我将其写入磁盘时,它将布尔值 (true,false) 转换为 null。 这是代…

烟沫凡尘 2025-01-19 08:02:31 3 0
更多

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文