使用 Hadoop 处理大量小文件
我正在使用 Hadoop 示例程序 WordCount 来处理大量小文件/网页(约 2-3 kB)。由于这与 hadoop 文件的最佳文件大小相差甚远,因此程序非常慢。我想这…
远程执行hadoop作业时出现异常
我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。 Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs…
MapReduce 洗牌/排序方法
有点奇怪的问题,但是有人知道 MapReduce 在 shuffle/sort 的排序部分中使用哪种排序吗?我认为合并或插入(与整个 MapReduce 范例保持一致),但我不…
从HDFS导入数据到Hive表
我的数据位于 HDFS 中的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,例如名称、ip 和 url。 我想在 Hive 中创建一个表并从 hdfs…
为什么我得到“security.Groups:组映射 impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;”缓存超时=300000”?
$hdfs dfs -rmr crawl 11/04/16 08:49:33 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cach…
HDFS:使用 HDFS API 附加到 SequenceFile
我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件,而不运行 MapReduce 作业作为未来 MapReduce 作业的设置。我想将 MapReduce 作业的所有输…
在 Hive 中,“加载数据本地路径”是否有效?覆盖现有数据还是追加?
我希望在 cron 上运行到 Hive 的导入,并且希望仅使用 “将数据本地路径‘/tmp/data/x’加载到表 X”到表中就足够了。 后续命令会覆盖表中已有的内容…
Hadoop,如何压缩映射器输出而不是减速器输出
我有一个map-reduce java 程序,在其中我尝试只压缩mapper 输出而不压缩reducer 输出。我认为可以通过在配置实例中设置以下属性来实现这一点,如下所…
hadoop 空指针异常
我试图设置 hadoop michael-noll 的方式 使用两台计算机。 当我尝试格式化 hdfs 时,它显示了 NullPointerException。 hadoop@psycho-O:~/project/had…
使用 Java API 在 Hadoop 中移动文件?
我想使用 Java API 在 HDFS 中移动文件。我想不出办法做到这一点。 FileSystem 类似乎只想允许在本地文件系统之间移动。但我想将它们保留在 HDFS 中并…
Hadoop HDFS 最大文件大小
我的一位同事认为 HDFS 没有最大文件大小,即通过分区为 128 / 256 meg 块,可以存储任何大小的文件(显然 HDFS 磁盘有一个大小,并且会受到限制,但…
如何存储 /*url* 的实际名称?
我正在将脚本转换为 HDFS (Hadoop),并且我有这个 cmd: tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls 使用 HDFS,…
如何解决 Hadoop 文件系统安装错误?
我正在尝试在非 Cloudera Ubuntu 测试映像上安装 Hadoop。一切似乎都很顺利,直到我运行 ./bin/start-all.sh。名称节点永远不会出现,因此我什至无法…