hadoop

hadoop

文章 899 浏览 343

hadoop&quort'warn util.nativecodeloader:无法为您的平台加载本机 - hadoop库...使用内置java class; quot;

我正在尝试在Windows 11中安装Hadoop。 执行命令 hdfs namenode -format 发出以下消息: 2022-05-17 18:30:32,792 INFO namenode.NameNode: createNam…

﹏半生如梦愿梦如真 2025-01-29 18:52:29 3 0

使用Over Window(Concat& max)多个AGG函数

我在Spark中是初学者,是否有任何方法将多个AGG功能应用于两个不同的列,使用窗口相同的列?就我而言,我想应用contat和max, 我有一个数据集(DS1)…

笑叹一世浮沉 2025-01-29 18:00:09 3 0

Apache Spark Cache在衍生数据框架上是否有效?

我正在使用Apache Spark进行一些工作,但是我不确定数据框“ Frame3”是否会使用“ Frame1”中的缓存数据。在下面概念上描述方案的代码: frame1 = sp…

吃素的狼 2025-01-29 08:01:05 3 0

由于own_task_failure,FailedTasks:1 althTasks:0,Vertex pertex_16520744645349_0075_3_3_01 [MAP 1]

ERROR : FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex failed, vertexName=Map 1, vertexId=ve…

能否归途做我良人 2025-01-29 04:31:03 3 0

如何从R连接到HDFS并使用箭头读取/写parquet?

我想在HDF中使用几个Parquet文件,我想在R中读取R,并且R中的一些数据我想写入HDFS并以Parquet文件格式存储。我想使用Arrow库,因为我相信这相当于Pya…

二手情话 2025-01-29 02:11:41 5 0

为什么Spark比Hadoop地图快100倍

为什么火花比Hadoop MapReduce快? 根据我的理解,由于内存处理是否更快,因此Hadoop也将数据加载到RAM中,然后将其加载到RAM中。每个程序首先加载到R…

心的憧憬 2025-01-28 20:24:00 5 0

HDFS产生的Hive提取太慢,因为太多的映射任务,当执行Hive SQL查询时,我该如何合并查询结果

Hive查询在“/tmp/hive/hive”中产生太多结果文件,接近4W任务。 因此,我想知道是否有一种方法可以在查询之后合并结果,减少结果文件的数量并提高提…

晨敛清荷 2025-01-28 04:15:28 3 0

从Hive/Spark中选择XML的值

我有XML: 2022-01-01 USA New York 我想在XPATH上选择“纽约”,但是当我编写此查询时: 选择XPATH_STRING(正文,'info/infofield [3]/@name')我的…

蓝眸 2025-01-27 23:01:04 2 0

Pyspark DF不能采取任何行动

自这个问题开始以来已经3周了。 长话短说,我的目标是创建一个用户项目矩阵以供推荐(Cosine,Sad,...)。 为此,我创建了下面的代码。第一个功能列…

浊酒尽余欢 2025-01-27 21:54:25 2 0

Hadoop MapReduce执行卡

我在VM上使用Hadoop。当我尝试运行jar时,执行会停止,因为无法找到文件资源type.xml。 我该如何解决?谢谢。 gaia@gaia-virtual-machine:~/hadoop-3.…

长梦不多时 2025-01-27 17:54:07 5 0

高光谱图像存储

我想使用Python保存高光谱图像,但我不知道可以在哪里持续数据。我考虑过HDFS。我需要在我的本地服务器上使用云提供商 可以使其变得轻松,并且您建议…

赢得她心 2025-01-27 17:41:30 4 0

为什么Spark-Submit所使用的类Path出乎意料的是来自Python安装下的罐子?

我有一个JAR文件,其中包含我使用以下Spark -Submit命令运行的Scala(和Java)代码: spark-submit --verbose --class mycompany.MyClass --conf spar…

故乡的云 2025-01-27 14:36:54 2 0

pyspark脚本中的HDFS命令

我正在编写一个简单的Pyspark脚本,将HDFS文件和文件夹从一个位置复制到另一个位置。 但是我找不到一种使用Pyspark复制文件夹和文件的方法 可用, had…

空名 2025-01-27 13:33:01 3 0

调用O137.分区时发生错误。 :org.apache.hadoop.mapred.invalidinputexception:不存在输入路径:hdfs:// ip ip

我正在尝试在AWS EMR Spark群集中执行此GitHub项目 我已经成功运行了2个FISRT代码 tweet_stream_producer.py sparkml_train_model.py, 但是当我使用…

泪眸﹌ 2025-01-27 02:44:01 4 0

“ eNoent:否此类文件或目录”在执行WordCount程序时在Hadoop中

在Linux Shell中使用命令“ hadoop jar share/hadoop share/hadoop/hadoop-mapreduce-examples-3.1.3.jar wordcount/input/outption”在linux shell中…

烟织青萝梦 2025-01-26 21:01:23 6 0
更多

推荐作者

qq_aHcEbj

文章 0 评论 0

qq_ikhFfg

文章 0 评论 0

把昨日还给我

文章 0 评论 0

wj_zym

文章 0 评论 0

巴黎夜雨

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文