如何从java通过hdfs协议访问hadoop?
我找到了一种通过 hftp 连接到 hadoop 的方法,它工作正常,(只读): uri = "hftp://172.16.xxx.xxx:50070/"; System.out.println( "uri: " + uri )…
hadoop fs -put 和 hadoop fs -copyFromLocal 之间的区别
-put 和 -copyFromLocal 被记录为相同的,而大多数示例使用详细变体 -copyFromLocal。为什么? -get 和 -copyToLocal 也是如此…
客户端机器上的hadoop api配置
超级菜鸟。我有一台带有 cdh3u1 伪发行版的服务器计算机,以及一台带有使用 cdh3u1 API 的 java 应用程序的客户端计算机。 如何配置客户端与服务器通…
如何读/写“二进制”使用 RUBY gem ganapati 从 Hadoop/HDFS 生成文件
我正在使用 Ganapati Ruby gem 从 Hadoop HDFS 集群读取/写入文件,如此处指出的问题 - 如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件? 但这仅适用…
如何将文件从 S3 复制到 Amazon EMR HDFS?
我正在 EMR 上运行 Hive, 并且需要将一些文件复制到所有EMR实例中。 据我了解,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文…
HDFS在存储时是否对数据进行加密或压缩?
例如,当我将文件放入 HDFS 时, $ ./bin/hadoop/dfs -put /source/file input 文件在存储时是否压缩? 文件在存储时是否加密?是否有一个配置设置可…
如何从 HBase 获取图像
我的 HDFS 中有大约 1 Gig 的图像 .png 文件。任何人都可以建议我一种将这些图像的索引值存储在 HBase 中并通过查询 HBase 检索图像的方法。或者我如…
如何在hadoop中向公众公开任务跟踪器/作业跟踪器Web界面?
我正在尝试监视不同的集群节点,但每次我都必须 ssh -X 到该节点并启动浏览器来查看状态信息。 无论如何,有没有办法制作这些http://jobtracker:50030…
运行Hadoop MapReduce,是否可以调用HDFS之外的外部可执行文件
在我的映射器中,我想调用 HDFS 之外的工作节点上安装的外部软件。这可能吗?最好的方法是什么? 我知道这可能会带走 MapReduce 的一些优势/可扩展性…
在 Hadoop 中设置压缩输出
什么时候该用、什么时候不该用 FileOutputFormat.setCompressOutput(conf, true);? 我听说它会压缩映射器输出。有没有可能压缩减速机侧的输出? (如…
Apache Pig 权限问题
我正在尝试在我的 Hadoop 集群上启动并运行 Apache Pig,但遇到了权限问题。 Pig 本身可以正常启动并连接到集群 - 在 Pig shell 中,我可以通过我的 H…
NoSQL 上的文件 I/O - 特别是 HBase - 是否推荐?或不?
我是 NoSQL 新手,现在尝试使用 HBase 进行文件存储。我会将文件以二进制形式存储在 HBase 中。 我不需要任何统计数据,只需要文件存储。 推荐吗?我…