HadoopFS (HDFS) 作为分布式文件存储
我正在考虑使用 HDFS 作为我们的客户端视频托管服务的水平扩展文件存储系统。我主要担心 HDFS 并不是为了这种需求而开发的,这更像是“目前在需要处理…
输入格式是否负责在 Hadoop 的 MapReduce 中实现数据局部性?
我试图了解数据局部性,因为它与 Hadoop 的 Map/Reduce 框架相关。特别是我试图了解什么组件处理数据局部性(即它是输入格式?) 雅虎的开发者网络页…
在不添加更多hdfs服务器的情况下添加更多hbase服务器是否有益?
我正在使用 Eucalyptus,并正在考虑将 hdfs 和 hbase 放在我们的节点控制器上。在我们的某些实例上运行 hbase 会提高性能吗?还是多余的?…
使用 Hadoop 处理大量小文件
我正在使用 Hadoop 示例程序 WordCount 来处理大量小文件/网页(约 2-3 kB)。由于这与 hadoop 文件的最佳文件大小相差甚远,因此程序非常慢。我想这…
远程执行hadoop作业时出现异常
我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。 Configuration conf = new Configuration() conf.set("fs.default.name", "hdfs:…
MapReduce 洗牌/排序方法
有点奇怪的问题,但是有人知道 MapReduce 在 shuffle/sort 的排序部分中使用哪种排序吗?我认为合并或插入(与整个 MapReduce 范例保持一致),但我不…
从HDFS导入数据到Hive表
我的数据位于 HDFS 中的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,例如名称、ip 和 url。 我想在 Hive 中创建一个表并从 hdfs…
为什么我得到“security.Groups:组映射 impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;”缓存超时=300000”?
$hdfs dfs -rmr crawl 11/04/16 08:49:33 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping cache…
HDFS:使用 HDFS API 附加到 SequenceFile
我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件,而不运行 MapReduce 作业作为未来 MapReduce 作业的设置。我想将 MapReduce 作业的所有输…
在 Hive 中,“加载数据本地路径”是否有效?覆盖现有数据还是追加?
我希望在 cron 上运行到 Hive 的导入,并且希望仅使用 “将数据本地路径‘/tmp/data/x’加载到表 X”到表中就足够了。 后续命令会覆盖表中已有的内容…
Hadoop,如何压缩映射器输出而不是减速器输出
我有一个map-reduce java 程序,在其中我尝试只压缩mapper 输出而不压缩reducer 输出。我认为可以通过在配置实例中设置以下属性来实现这一点,如下所…
hadoop 空指针异常
我试图设置 hadoop michael-noll 的方式 使用两台计算机。 当我尝试格式化 hdfs 时,它显示了 NullPointerException。 hadoop@psycho-O:~/project/had…
使用 Java API 在 Hadoop 中移动文件?
我想使用 Java API 在 HDFS 中移动文件。我想不出办法做到这一点。 FileSystem 类似乎只想允许在本地文件系统之间移动。但我想将它们保留在 HDFS 中并…