HDFS

HDFS

文章 118 浏览 210

使用 Hadoop 处理大量小文件

我正在使用 Hadoop 示例程序 WordCount 来处理大量小文件/网页(约 2-3 kB)。由于这与 hadoop 文件的最佳文件大小相差甚远,因此程序非常慢。我想这…

◇流星雨 2024-11-05 15:54:22 3 0

远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。 Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs…

魂归处 2024-11-04 06:50:03 3 0

MapReduce 洗牌/排序方法

有点奇怪的问题,但是有人知道 MapReduce 在 shuffle/sort 的排序部分中使用哪种排序吗?我认为合并或插入(与整个 MapReduce 范例保持一致),但我不…

愛放△進行李 2024-11-03 15:56:25 3 0

从HDFS导入数据到Hive表

我的数据位于 HDFS 中的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,例如名称、ip 和 url。 我想在 Hive 中创建一个表并从 hdfs…

九歌凝 2024-11-02 16:22:46 2 0

为什么我得到“security.Groups:组映射 impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;”缓存超时=300000”?

$hdfs dfs -rmr crawl 11/04/16 08:49:33 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cach…

雨后彩虹 2024-11-01 21:25:32 3 0

Hadoop/Pig正则表达式匹配

这是一种奇怪的情况,但我正在寻找一种使用 MATCHES 之类的东西进行过滤的方法,但在未知模式(未知长度)列表上。 也就是说,如果给定的输入是两个文…

A君 2024-11-01 19:18:09 0 0

HDFS:使用 HDFS API 附加到 SequenceFile

我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件,而不运行 MapReduce 作业作为未来 MapReduce 作业的设置。我想将 MapReduce 作业的所有输…

宣告ˉ结束 2024-10-31 15:07:23 2 0

部分节点磁盘空间不足的Hadoop集群~

我现在拥有一个包含 12 个节点的集群。其中一些节点(特别是 8 个节点)具有足够的磁盘空间。但另外 4 个几乎没有空间可以使用。 然而,其他 4 个节点…

木森分化 2024-10-31 04:35:29 1 0

在 Hive 中,“加载数据本地路径”是否有效?覆盖现有数据还是追加?

我希望在 cron 上运行到 Hive 的导入,并且希望仅使用 “将数据本地路径‘/tmp/data/x’加载到表 X”到表中就足够了。 后续命令会覆盖表中已有的内容…

伴我老 2024-10-30 16:46:21 4 0

Hadoop,如何压缩映射器输出而不是减速器输出

我有一个map-reduce java 程序,在其中我尝试只压缩mapper 输出而不压缩reducer 输出。我认为可以通过在配置实例中设置以下属性来实现这一点,如下所…

顾北清歌寒 2024-10-30 15:46:13 5 0

hadoop 空指针异常

我试图设置 hadoop michael-noll 的方式 使用两台计算机。 当我尝试格式化 hdfs 时,它显示了 NullPointerException。 hadoop@psycho-O:~/project/had…

ゞ记忆︶ㄣ 2024-10-29 02:44:08 3 0

使用 Java API 在 Hadoop 中移动文件?

我想使用 Java API 在 HDFS 中移动文件。我想不出办法做到这一点。 FileSystem 类似乎只想允许在本地文件系统之间移动。但我想将它们保留在 HDFS 中并…

唐婉 2024-10-28 17:29:22 2 0

Hadoop HDFS 最大文件大小

我的一位同事认为 HDFS 没有最大文件大小,即通过分区为 128 / 256 meg 块,可以存储任何大小的文件(显然 HDFS 磁盘有一个大小,并且会受到限制,但…

再可℃爱ぅ一点好了 2024-10-28 04:23:21 2 0

如何存储 /*url* 的实际名称?

我正在将脚本转换为 HDFS (Hadoop),并且我有这个 cmd: tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls 使用 HDFS,…

千柳 2024-10-27 14:49:53 2 0

如何解决 Hadoop 文件系统安装错误?

我正在尝试在非 Cloudera Ubuntu 测试映像上安装 Hadoop。一切似乎都很顺利,直到我运行 ./bin/start-all.sh。名称节点永远不会出现,因此我什至无法…

雨后彩虹 2024-10-27 05:46:05 6 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文