dis' hdfs dfs -cp'使用 /TMP作为其实施的一部分
试图调查 /TMP填充的问题,我们不知道是什么原因引起的。我们确实有一个更改,该更改使用HDFS命令将副本执行到另一个主机( hdfs dfs -cp/source/file…
用Scala计数HDFS目录中的文件
在Scala中,我正在尝试计算HDFS目录的文件。 我尝试获取具有 val files = fs.listfiles(path,false)的文件列表,并依靠它或获取大小,但它不适用于…
如何在Ubuntu上与HDF一起运行MRJOB?
我在Ubuntu上设置Hadoop 3.3.1。我可以使用HFDS正常运行JAR文件(使用Eclipse,添加hadoop的加法罐子,然后导出)。运行MRJOB本地正常状态,但是当我…
蜂巢表加载来自HDFS位置的数据,并带有处理的重复文件
如果每日文件加载HDFS位置的特定路径,则存在场景。在该路径的基础上,我们创建了Hive外部表,将数据加载到Hive中的表中。最糟糕的情况将文件推到特定…
erreur:httpconnectionpool(host =' dnode2',port = 9864):用url: /webhdfs超过了最大检索
我正在尝试在与Docker一起部署的Python应用程序中的HDFS服务器上读取文件,在DEV期间,我没有任何问题,但是在prod中,有一个错误: erreur:httpconn…
无法创建数据库,因为它已经存在,但是它不是T
我想使用命令创建Hive数据库: create database sbx_products_diff 但是它失败了以下错误: jdbc:hive2:// myhost>创建数据库SBX_PRODUCTS_DIFF…
为什么在HBase中不可能进行聚合?
我想知道为什么 HBase 本身不支持诸如 SUM / AVG 之类的聚合操作。我了解到有几种解决方法可以实现相同的目的,但是虽然有这些解决方法,但为什么 HBa…
FileNotFoundError: [Errno 2] 将文件放入 hdfs 时没有这样的文件或目录
我在 python 中使用 subprocess.popen 将文件放入HDFS中。它可以使用Windows cmd 上的Python准确地运行。但是,当我使用vscode运行代码时,我会得到“…
如何使用Scala从HDFS目录中删除所有文件
对于我目前正在使用 Scala 和 Spark 进行的项目,我必须编写一个代码来检查我正在处理的 hdfs 目录是否为空,如果不是,我必须从该目录中删除所有文件…
HDFS文件系统,使用Scala API获取最新文件夹
我们的应用程序从多个 HDFS 数据文件夹中读取数据,文件夹每周/每天/每月更新一次,因此根据更新周期,我们需要找到最新的路径,然后读取数据。 我们…
HDFS中的数据码与纱线的Node Manager之间的连接/关系是什么?
我正在阅读有关纱线和Hadoop文件系统的基础知识。一些博客在线告诉我,纱线只是资源管理系统,HDFS与存储有关。但是我在《 hadoop deveritive指南》一…
Spark Write(Parquet)到本地HDFS花费很长时间
上下文: 我有一个非常简单的 scala/spark 作业,我通过 SPARK JDBC READ 从 Microsoft SQL Server 关系数据库中的表中读取数据。读取的数据进入 Data…
Parquet 将布尔值写入 null
我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值,但是当我将其写入磁盘时,它将布尔值 (true,false) 转换为 null。 这是代…