hadoop

hadoop

文章 899 浏览 343

如何将HiveVar作为分区变量通过HIVEVAR的蜂巢分区?

我一直在尝试运行此代码,以将当前的分区从Hive A桌上删除,由于某种原因,它不会从蜂巢台上放下分区。不知道什么是磨损。 Table Name : prod_db.prod…

眼波传意 2025-01-24 12:39:54 3 0

Hadoop Local主机:9870浏览器接口不起作用

我需要使用Hadoop进行数据分析。因此,我已经安装了hadoop,并如下配置。但是Localhost:9870不起作用。甚至每次使用它时,我都有格式名称。该论坛的…

烟酒忠诚 2025-01-24 02:47:08 1 0

无法为您的平台加载本机 - hadoop库...在适用的情况下,使用内置的java类使用(可以使用Spark运行Python程序)

无法为您的平台加载本机 - hadoop库...在适用的情况下,使用内置java类(可以使用Spark运行Python程序)。我正在尝试运行此代码,只是用于测试Sparks…

胡大本事 2025-01-24 01:14:03 1 0

如何比较Hadoop结果

我正在编写一个地图简化程序,以查找包含最多单词的文件。 现在,我能够使用MAP RELAD来查找每个文件中包含的单词数量。但是,我不确定如何在每个文件…

司马昭之心 2025-01-23 19:26:52 5 0

蜂巢的分区策略

我有一个每月的Spark Job来处理数据并保存到Hive/Impala表中(文件存储格式为parquet)。表的粒度是每日数据,但是此工作的源数据也是每月工作的。 我…

睫毛上残留的泪 2025-01-23 18:42:03 4 0

如何将数据从远程HDFS加载到Spark中?

我们的数据存储在一个遥控的Hadoop群集中,但是要进行一些POC,我需要在我的计算机上本地运行Spark应用程序。如何从该远程HDFS加载数据?…

梦魇绽荼蘼 2025-01-23 16:04:42 2 0

dis' hdfs dfs -cp'使用 /TMP作为其实施的一部分

试图调查 /TMP填充的问题,我们不知道是什么原因引起的。我们确实有一个更改,该更改使用HDFS命令将副本执行到另一个主机( hdfs dfs -cp/source/file…

情痴 2025-01-23 06:57:04 4 0

无法使用pyarrrow中的hadoopfilesystem连接到hadoop服务器

我正在尝试使用Python代码,其中我正在使用Pyarrow,并尝试使用 fs.hadoopfilesystem(host = host_value,port = port_value)尝试与Hadoop服务器建…

晌融 2025-01-23 06:23:16 1 0

为什么要从Databricks Spark Notebook(Hadoop Fileutils)写入DBFS安装位置的位置慢13倍?

Databricks笔记本电脑需要2个小时才能写入 /dbfs /mnt(blob存储)。 同样的工作需要8分钟才能写入 /dbfs /filestore。 我想了解为什么在两种情况下写…

魄砕の薆 2025-01-23 05:59:26 2 0

用Scala计数HDFS目录中的文件

在Scala中,我正在尝试计算HDFS目录的文件。 我尝试获取具有 val files = fs.listfiles(path,false)的文件列表,并依靠它或获取大小,但它不适用于…

嘿看小鸭子会跑 2025-01-23 01:23:26 1 0

需要将多个蜂巢分区合并为Spark中的一个分区

我在蜂巢桌上有大约50个分区。我需要将每组分区合并为一个分区。我尝试使用重命名分区命令。但是获取错误消息。 需要帮助将多个蜂巢分区合并为Spark中…

温柔少女心 2025-01-22 19:11:17 4 0

使用Hive阅读时如何忽略空的镶木木材文件

我使用的是Hive 3.1.0,我的查询每小时都会从某些路径上读取一堆镶木件文件。我无法控制这些文件是如何生成的,因为这些文件是由某些外部过程创建的。…

鞋纸虽美,但不合脚ㄋ〞 2025-01-22 10:13:56 2 0

如何在Ubuntu上与HDF一起运行MRJOB?

我在Ubuntu上设置Hadoop 3.3.1。我可以使用HFDS正常运行JAR文件(使用Eclipse,添加hadoop的加法罐子,然后导出)。运行MRJOB本地正常状态,但是当我…

ペ泪落弦音 2025-01-22 09:40:21 1 0

Impala中是否支持负外观?

我在Impala中使用Regexp_like,带有负外观,以在字符串数组中找到模式。我已经针对示例数据集构建了表达式。 运行它会产生以下错误消息。 无效的正则…

战皆罪 2025-01-22 08:14:22 1 0

无法使用Pyspark从Hive查询表,错误显示我正在从错误的IP调用

sol.spark.sql("select * from type_match") 2022-04-19 10:31:33 WARN FileStreamSink:66 - Error while looking for metadata directory. Traceback…

笑叹一世浮沉 2025-01-22 07:34:13 3 0
更多

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文