HDFS

投稿关注

文章 118 浏览 212

如何通过 HDFS 加载 SPARK NLP 预训练管道

我已经安装了 Sparknlp 及其程序集 jar，但当我尝试使用其中一个模型时仍然收到错误，我收到 TypeError: 'JavaPackage' object is not callable。我…

執念 2025-01-12 04:30:41 0 0

从客户端程序访问配置为高可用性的 HDFS

我试图了解通过 HDFS 集群外部的名称服务（连接活动名称节点 - 高可用性名称节点）连接 HDFS 的工作和不工作程序的上下文。不工作的程序：当我读取…

马蹄踏│碎落叶 2025-01-11 20:20:24 0 0

如何使用pyspark写入hdfs中的特定数据节点

我需要将公共数据写入相同的 hdfs 数据节点，就像我们如何在 pyspark 中对列进行重新分区以将相似的数据放入相同的工作节点中，甚至副本也应该位于相…

铃予 2025-01-11 17:19:29 0 0

如何使用机器2中的nifi将csv文件从机器1发送到机器3？

我的场景有 3 台机器机器 1：有一个 .csv 文件机器2：Nifi已安装并运行机器 3：HDFS 和 Hbase 已安装并正在运行。现在我必须使用在机器 2 中运行…

凉宸 2025-01-11 05:24:40 0 0

dfs.replication.max 的含义是什么

关于 HDFS dfs.replication.max 的含义是什么？来自文档 - https:/ /hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.…

篱下浅笙歌 2025-01-10 08:34:04 1 0

Ceph 的 Hadoop 存档实用程序替代方案

我的基于 HDFS 的存储上有一些 HAR 文件（Hadoop 存档文件），其中有一些不经常使用的存档数据。现在我们计划转向基于 Ceph 的存储。所以我有两个问…

暮倦 2025-01-09 15:40:32 1 0

在集群中的执行器上运行 python 脚本 [Scala/Spark]

我有 python 脚本： import sys for line in sys.stdin: print("hello " + line) 我在集群中的工作人员上运行它： def run(spark: SparkSession) = { …

浅唱々樱花落 2025-01-09 04:43:10 2 0

hadoop put 命令中的目标已存在错误

我正在尝试 Hadoop 1.0。将一个文件从本地系统复制到 HDFS 时，我收到目标不存在。我的hadoop命令及其输出如下： shekhar@ubuntu:/host/Shekhar/Soft…

蓝天 2025-01-07 11:43:18 1 0

快速写入持久队列

我正在尝试更改当前的应用程序以进行扩展。目前它每小时最多可以处理几百万个事件，但当我切换到 SaaS 模型时，数量预计会增长 10 到 100 倍，因此能…

梦开始←不甜 2025-01-07 10:33:58 0 0

Hadoop 可以分发任务和代码库吗？

我开始使用 hadoop（但还无法访问集群，所以只能独立使用）。我的问题是，一旦进入集群设置，任务如何分配以及代码库可以转移到新节点吗？理想情况下…

国际总奸 2025-01-06 23:57:06 1 0

读/写时出错 (Hadoop)

我遵循了这个教程安装hadoop。好吧，如果我使用 \usr\local\hadoop 作为 hadoop.tmp.dir ，一切都会正常。因为我在这个分区中的空间很小，所以我尝试…

眼眸印温柔 2025-01-04 19:45:36 2 0

hadoop 日志记录工具？

如果我要使用 Zookeeper 作为工作队列并连接到它的各个消费者/工作人员。您会推荐什么作为记录这些工人活动的良好分布式设置？假设如下： 1) 在任何…

顾铮苏瑾 2025-01-04 08:00:32 1 0

数据局部性（如果不使用 HDFS）

当您为 Hadoop 的 Map/Reduce 部分提供除 HDFS 之外的不同存储（如 MySql 服务器等）时，它的数据局部性功能会发生什么情况？换句话说，我的理解是Had…

谜兔 2025-01-03 06:56:14 1 0

带附加功能的 HDFS 是如何工作的

假设一个文件使用默认块大小 (128 MB)，并且有一个文件使用 130 MB；因此使用 1 个全尺寸块和 1 个 2 MB 块。然后需要将 20 MB 附加到文件中（现在总…

浅忆流年 2025-01-02 12:46:12 2 0

在小型 HDFS 文件上长时间运行地图任务

想象一个场景，您有一个文本文件，其中有 10000 行，因此当您将其保存在 HDFS 中时，它会非常小。现在您的目标是在这个小文件上运行映射/归约作业，期…

庆幸我还是我 2025-01-01 13:16:25 1 0

共 16 页
1
2
3
4
5
下一页

卷耳

文章 0 评论 0

关注

佚名

文章 0 评论 0

关注

℉服软

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

凉宸

文章 0 评论 0

关注

gyhjy

文章 0 评论 0

友情链接

文江博客

HDFS

如何通过 HDFS 加载 SPARK NLP 预训练管道

从客户端程序访问配置为高可用性的 HDFS

如何使用pyspark写入hdfs中的特定数据节点

如何使用机器2中的nifi将csv文件从机器1发送到机器3？

dfs.replication.max 的含义是什么

Ceph 的 Hadoop 存档实用程序替代方案

在集群中的执行器上运行 python 脚本 [Scala/Spark]

hadoop put 命令中的目标已存在错误

快速写入持久队列

Hadoop 可以分发任务和代码库吗？

读/写时出错 (Hadoop)

hadoop 日志记录工具？

数据局部性（如果不使用 HDFS）

带附加功能的 HDFS 是如何工作的

在小型 HDFS 文件上长时间运行地图任务

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接