HDFS:使用 HDFS API 附加到 SequenceFile
我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件,而不运行 MapReduce 作业作为未来 MapReduce 作业的设置。我想将 MapReduce 作业的所有输…
在 Hive 中,“加载数据本地路径”是否有效?覆盖现有数据还是追加?
我希望在 cron 上运行到 Hive 的导入,并且希望仅使用 “将数据本地路径‘/tmp/data/x’加载到表 X”到表中就足够了。 后续命令会覆盖表中已有的内容…
Hadoop,如何压缩映射器输出而不是减速器输出
我有一个map-reduce java 程序,在其中我尝试只压缩mapper 输出而不压缩reducer 输出。我认为可以通过在配置实例中设置以下属性来实现这一点,如下所…
hadoop 空指针异常
我试图设置 hadoop michael-noll 的方式 使用两台计算机。 当我尝试格式化 hdfs 时,它显示了 NullPointerException。 hadoop@psycho-O:~/project/had…
使用 Java API 在 Hadoop 中移动文件?
我想使用 Java API 在 HDFS 中移动文件。我想不出办法做到这一点。 FileSystem 类似乎只想允许在本地文件系统之间移动。但我想将它们保留在 HDFS 中并…
Hadoop HDFS 最大文件大小
我的一位同事认为 HDFS 没有最大文件大小,即通过分区为 128 / 256 meg 块,可以存储任何大小的文件(显然 HDFS 磁盘有一个大小,并且会受到限制,但…
如何存储 /*url* 的实际名称?
我正在将脚本转换为 HDFS (Hadoop),并且我有这个 cmd: tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls 使用 HDFS,…
如何解决 Hadoop 文件系统安装错误?
我正在尝试在非 Cloudera Ubuntu 测试映像上安装 Hadoop。一切似乎都很顺利,直到我运行 ./bin/start-all.sh。名称节点永远不会出现,因此我什至无法…
HDFS 表示文件仍然打开,但写入该文件的进程已被终止
我是 hadoop 的新手,过去几个小时我一直在尝试用 google 搜索这个问题,但我找不到任何有帮助的东西。我的问题是 HDFS 说该文件仍然打开,即使写入该…
导入hadoop/pig中日志的多级目录
我们将日志存储在 S3 中,我们的 (Pig) 查询之一将获取三种不同的日志类型。每个日志类型都位于基于类型/日期的子目录集中。例如: /logs//////lots_o…
如何判断 hadoop namenode 是否已经格式化?
当第一次配置我的 hadoop namenode 时,我知道我需要运行, bin/hadoop namenode -format 但是在将数据加载到 HDFS 后第二次运行它,将清除所有内容并…
Hive 在 HDFS 中的什么位置存储文件?
我想知道如何找到 Hive 表和它们所代表的实际 HDFS 文件(或更确切地说,目录)之间的映射。我需要直接访问表文件。 Hive 将其文件存储在 HDFS 中的什…
如何确保数据均匀分布在 hadoop 节点上?
如果我将数据从本地系统复制到 HDFS,我能否确保数据均匀分布在节点上? PS HDFS保证每个块将存储在3个不同的节点上。但这是否意味着我的文件的所有块…