hadoop

hadoop

文章 899 浏览 343

如何使用 Hadoop 命令查找文件中的重复记录或值?

我在 hadoop 文件系统中有一个文件,其中包含重复的记录/值。我知道通过程序我们可以轻松获取重复项。但我想尝试在 CLI 中使用 HDFS 命令以获得快速结…

紅太極 2025-01-12 17:43:36 1 0

Yarn 客户端模式下的 Jupyter Notebook Pyspark NameError 'sc'未定义

我是初学者。当我使用基本代码运行 Jupyter Notebook 时,它显示了如下错误: NameErr Traceback (most recencall last) in () ----> 1 sc.master Nam…

风筝在阴天搁浅。 2025-01-12 16:14:07 1 0

查找前十个单词的音节数

我正在尝试做一个工作,接收一个文本文件,然后计算每个单词的音节数,然后最终返回音节最多的前 10 个单词。我能够按降序排列所有单词/音节对,但是…

情深已缘浅 2025-01-12 12:20:26 5 0

无法让 Spark 使用带有 EMR 的 s3 神奇输出提交器

我正在尝试使用神奇的输出提交器,但无论我做什么,我都会得到默认的输出提交器。 INFO FileOutputCommitter: File Output Committer Algorithm versi…

半﹌身腐败 2025-01-12 07:18:34 1 0

从客户端程序访问配置为高可用性的 HDFS

我试图了解通过 HDFS 集群外部的名称服务(连接活动名称节点 - 高可用性名称节点)连接 HDFS 的工作和不工作程序的上下文。 不工作的程序: 当我读取…

马蹄踏│碎落叶 2025-01-11 20:20:24 2 0

java.lang.NoSuchMethodError: 'long org.apache.hadoop.conf.Configuration.getTimeDuration - Spark/Scala/sbt 程序集

我在路径 /opt/spark/jars/ 下保留了相同版本的 buildsbt jars 使用 sbt 创建程序集 jar 并使用 Spark-submit 执行该 jar 并收到上述错误。我们如何知…

甜心小果奶 2025-01-11 19:27:31 2 0

如何使用pyspark写入hdfs中的特定数据节点

我需要将公共数据写入相同的 hdfs 数据节点,就像我们如何在 pyspark 中对列进行重新分区以将相似的数据放入相同的工作节点中,甚至副本也应该位于相…

铃予 2025-01-11 17:19:29 1 0

使用独立的YARN运行spark集群(不使用Hadoop的YARN)

我想使用 YARN 集群管理器部署 Spark 集群。 这个 Spark 集群需要从属于现有 Hadoop 生态系统的外部 HDFS 文件系统读取数据,该生态系统也有自己的 YA…

青丝拂面 2025-01-11 15:45:30 2 0

Hadoop 流中的退出代码 141

在 Hadoop 流作业中遇到退出代码 141。 在Google搜索后,我发现141错误是关于管道损坏的... 我的工作是从json生成protobuf实例。 当我仔细查看错误日…

时间海 2025-01-11 10:53:18 5 0

缩放后端视频和音频处理

我使用 node.js、PostgreSQL、rabbitmq、EC2 with EBS 和 Kubernetes 制作了一个用于视频和音频转码的应用程序。 我有点担心存储大小和计算能力。计算…

鹿! 2025-01-11 08:20:10 6 0

将数据从本地移动到 HDFS - 数据移位

我有 .csv 格式的逗号分隔文件, name,address,zip Ram,"123,ave st",1234 同时将数据移动到 hdfs 并以逗号分隔、面向列移位的方式创建配置单元表。 H…

司马昭之心 2025-01-11 03:36:50 3 0

查询以查找 Hue 上 impala/hive 中所有表的列数

我正在尝试从同一架构的 Impala 中获取单个表/视图列表的总列数。 但是我想扫描该架构中的所有表以捕获单个查询中的列? 我已经在 Oracle Exadata 中…

红ご颜醉 2025-01-11 02:59:00 6 0

创建 Hive 视图 - 关闭 Hive Metastore 中的元数据查找

是否可以在不存在的配置单元表或视图之上创建配置单元视图?这一能力将帮助我们在刷新时(将表或视图从一个环境迁移到另一个环境)时无需任何顺序地部…

只是我以为 2025-01-11 00:09:54 2 0

如何通过时间戳抓取最新数据,抓取一列的总和,消除重复,然后对其他列求和

DBMS = Hadoop,使用 Teradata SQL Assistant 如何根据 max(tstamp)、sum qty1、sumqty2 从此表中获取所有不同记录,然后根据 time1、time2、time3、d…

美胚控场 2025-01-10 23:05:26 2 0

MapReduce 未运行。 /bin/bash: /bin/java: 没有这样的文件或目录

我收到以下错误。 [2022-03-01 20:03:49.581]Container exited with a non-zero exit code 127. Error file: prelaunch.err. Last 4096 bytes of prel…

爱的那么颓废 2025-01-10 21:06:42 4 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文