第 3 页 - HDFS - 文江博客

投稿关注

HDFS

文章 118 浏览 213

dis＆＃x27; hdfs dfs -cp＆＃x27;使用 /TMP作为其实施的一部分

试图调查 /TMP填充的问题，我们不知道是什么原因引起的。我们确实有一个更改，该更改使用HDFS命令将副本执行到另一个主机（ hdfs dfs -cp/source/file…

情痴 2025-01-23 06:57:04 5 0

用Scala计数HDFS目录中的文件

在Scala中，我正在尝试计算HDFS目录的文件。我尝试获取具有 val files = fs.listfiles（path，false）的文件列表，并依靠它或获取大小，但它不适用于…

嘿看小鸭子会跑 2025-01-23 01:23:26 3 0

如何在Ubuntu上与HDF一起运行MRJOB？

我在Ubuntu上设置Hadoop 3.3.1。我可以使用HFDS正常运行JAR文件（使用Eclipse，添加hadoop的加法罐子，然后导出）。运行MRJOB本地正常状态，但是当我…

ペ泪落弦音 2025-01-22 09:40:21 3 0

从HDFS阅读时，如何跳过木板列？

我们都知道Parquet是面向列的，因此我们只能获得所需的列并减少IO。如果镶木quet文件存储在HDFS中，我们应该先下载整个文件，然后在本地应用列过滤器…

时光礼记 2025-01-22 07:58:34 2 0

蜂巢表加载来自HDFS位置的数据，并带有处理的重复文件

如果每日文件加载HDFS位置的特定路径，则存在场景。在该路径的基础上，我们创建了Hive外部表，将数据加载到Hive中的表中。最糟糕的情况将文件推到特定…

要走干脆点 2025-01-22 02:40:20 3 0

使用Pyspark和HDFS创建新的CSV文件并上传数据

我想使用pyspark在HDF中创建一个CSV文件，并在其中放置一些数据。…

平定天下 2025-01-21 17:10:20 1 0

erreur：httpconnectionpool（host =＆＃x27; dnode2＆＃x27;，port = 9864）：用url： /webhdfs超过了最大检索

我正在尝试在与Docker一起部署的Python应用程序中的HDFS服务器上读取文件，在DEV期间，我没有任何问题，但是在prod中，有一个错误： erreur：httpconn…

还不是爱你 2025-01-21 16:18:47 3 0

无法创建数据库，因为它已经存在，但是它不是T

我想使用命令创建Hive数据库： create database sbx_products_diff 但是它失败了以下错误： jdbc：hive2：// myhost＆gt;创建数据库SBX_PRODUCTS_DIFF…

梦里的微风 2025-01-21 06:34:14 3 0

为什么在HBase中不可能进行聚合？

我想知道为什么 HBase 本身不支持诸如 SUM / AVG 之类的聚合操作。我了解到有几种解决方法可以实现相同的目的，但是虽然有这些解决方法，但为什么 HBa…

素染倾城色 2025-01-20 17:50:01 3 0

FileNotFoundError: [Errno 2] 将文件放入 hdfs 时没有这样的文件或目录

我在 python 中使用 subprocess.popen 将文件放入HDFS中。它可以使用Windows cmd 上的Python准确地运行。但是，当我使用vscode运行代码时，我会得到“…

一束光，穿透我孤独的魂 2025-01-20 16:29:39 2 0

如何使用Scala从HDFS目录中删除所有文件

对于我目前正在使用 Scala 和 Spark 进行的项目，我必须编写一个代码来检查我正在处理的 hdfs 目录是否为空，如果不是，我必须从该目录中删除所有文件…

香草可樂 2025-01-20 02:47:10 3 0

HDFS文件系统，使用Scala API获取最新文件夹

我们的应用程序从多个 HDFS 数据文件夹中读取数据，文件夹每周/每天/每月更新一次，因此根据更新周期，我们需要找到最新的路径，然后读取数据。我们…

此刻的回忆 2025-01-19 21:47:10 1 0

HDFS中的数据码与纱线的Node Manager之间的连接/关系是什么？

我正在阅读有关纱线和Hadoop文件系统的基础知识。一些博客在线告诉我，纱线只是资源管理系统，HDFS与存储有关。但是我在《 hadoop deveritive指南》一…

滴情不沾 2025-01-19 13:34:07 4 0

Spark Write（Parquet）到本地HDFS花费很长时间

上下文：我有一个非常简单的 scala/spark 作业，我通过 SPARK JDBC READ 从 Microsoft SQL Server 关系数据库中的表中读取数据。读取的数据进入 Data…

决绝 2025-01-19 12:11:14 2 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值，但是当我将其写入磁盘时，它将布尔值 (true,false) 转换为 null。这是代…

烟沫凡尘 2025-01-19 08:02:31 3 0

共 20 页
上一页
1
2
3
4
5
下一页

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

HDFS

dis＆＃x27; hdfs dfs -cp＆＃x27;使用 /TMP作为其实施的一部分

用Scala计数HDFS目录中的文件

如何在Ubuntu上与HDF一起运行MRJOB？

从HDFS阅读时，如何跳过木板列？

蜂巢表加载来自HDFS位置的数据，并带有处理的重复文件

使用Pyspark和HDFS创建新的CSV文件并上传数据

erreur：httpconnectionpool（host =＆＃x27; dnode2＆＃x27;，port = 9864）：用url： /webhdfs超过了最大检索

无法创建数据库，因为它已经存在，但是它不是T

为什么在HBase中不可能进行聚合？

FileNotFoundError: [Errno 2] 将文件放入 hdfs 时没有这样的文件或目录

如何使用Scala从HDFS目录中删除所有文件

HDFS文件系统，使用Scala API获取最新文件夹

HDFS中的数据码与纱线的Node Manager之间的连接/关系是什么？

Spark Write（Parquet）到本地HDFS花费很长时间

Parquet 将布尔值写入 null

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接