hadoop

hadoop

文章 899 浏览 342

如何使用pyspark写入hdfs中的特定数据节点

我需要将公共数据写入相同的 hdfs 数据节点,就像我们如何在 pyspark 中对列进行重新分区以将相似的数据放入相同的工作节点中,甚至副本也应该位于相…

铃予 2025-01-11 17:19:29 0 0

使用独立的YARN运行spark集群(不使用Hadoop的YARN)

我想使用 YARN 集群管理器部署 Spark 集群。 这个 Spark 集群需要从属于现有 Hadoop 生态系统的外部 HDFS 文件系统读取数据,该生态系统也有自己的 YA…

青丝拂面 2025-01-11 15:45:30 0 0

Hadoop 流中的退出代码 141

在 Hadoop 流作业中遇到退出代码 141。 在Google搜索后,我发现141错误是关于管道损坏的... 我的工作是从json生成protobuf实例。 当我仔细查看错误日…

时间海 2025-01-11 10:53:18 0 0

缩放后端视频和音频处理

我使用 node.js、PostgreSQL、rabbitmq、EC2 with EBS 和 Kubernetes 制作了一个用于视频和音频转码的应用程序。 我有点担心存储大小和计算能力。计算…

鹿! 2025-01-11 08:20:10 0 0

将数据从本地移动到 HDFS - 数据移位

我有 .csv 格式的逗号分隔文件, name,address,zip Ram,"123,ave st",1234 同时将数据移动到 hdfs 并以逗号分隔、面向列移位的方式创建配置单元表。 H…

司马昭之心 2025-01-11 03:36:50 0 0

查询以查找 Hue 上 impala/hive 中所有表的列数

我正在尝试从同一架构的 Impala 中获取单个表/视图列表的总列数。 但是我想扫描该架构中的所有表以捕获单个查询中的列? 我已经在 Oracle Exadata 中…

红ご颜醉 2025-01-11 02:59:00 0 0

创建 Hive 视图 - 关闭 Hive Metastore 中的元数据查找

是否可以在不存在的配置单元表或视图之上创建配置单元视图?这一能力将帮助我们在刷新时(将表或视图从一个环境迁移到另一个环境)时无需任何顺序地部…

只是我以为 2025-01-11 00:09:54 0 0

如何通过时间戳抓取最新数据,抓取一列的总和,消除重复,然后对其他列求和

DBMS = Hadoop,使用 Teradata SQL Assistant 如何根据 max(tstamp)、sum qty1、sumqty2 从此表中获取所有不同记录,然后根据 time1、time2、time3、d…

美胚控场 2025-01-10 23:05:26 0 0

MapReduce 未运行。 /bin/bash: /bin/java: 没有这样的文件或目录

我收到以下错误。 [2022-03-01 20:03:49.581]Container exited with a non-zero exit code 127. Error file: prelaunch.err. Last 4096 bytes of prel…

爱的那么颓废 2025-01-10 21:06:42 0 0

如何编写 MRJob python 进行矩阵加法

我一直在尝试使用 MRJob 库制作简单的矩阵加法程序。我已经创建了这个简单的程序,就像使用单独的映射器和减速器一样,它在本地和 Hadoop 集群上运行…

何必那么矫情 2025-01-10 20:20:51 0 0

Spark 读/写 Azure blob 存储 - IOException:方案没有文件系统:wasbs

我正在尝试读取/写入 Azure blob 存储,但不断收到“方案没有文件系统:wasbs”。这是我的 gradle 文件的样子, plugins { // Apply the scala plugin…

好菇凉咱不稀罕他 2025-01-10 19:42:44 0 0

从本地 Hadoop 获取数据到 Data Lake Storage 时,Azure 数据工厂抛出错误

我正在尝试使用 Azure 数据工厂将数据从本地 HDFS 系统复制到数据湖。我已成功建立连接并能够浏览 HDFS 目录中的文件。当我尝试运行复制活动时,它向…

风柔一江水 2025-01-10 11:02:59 1 0

Intellij 中的 Spark Scala 错误:无法在 Hadoop 二进制文件中找到可执行文件 null\bin\winutils.exe

我想运行以下代码,将 CSV 加载到 IntelliJ 中的 Spark 数据框中。 import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, Sp…

梦纸 2025-01-10 10:41:26 0 0

dfs.replication.max 的含义是什么

关于 HDFS dfs.replication.max 的含义是什么? 来自文档 - https:/ /hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.…

篱下浅笙歌 2025-01-10 08:34:04 0 0

Spark-Shell 的 hadoop 中的 JAVA_HOME 错误

我需要安装 Hadoop 才能在我的 WSL2 Ubuntu 上运行 Spark 以用于学校项目。我按照这两个教程安装了 Hadoop 3.3.1 和 Spark 3.2.1 : Kontext.tech 上…

送君千里 2025-01-10 05:43:07 0 0
更多

推荐作者

微信用户

文章 0 评论 0

小情绪

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

笨死的猪

文章 0 评论 0

彭明超

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文