获取流式hadoop程序中的输入文件名
在用 Java 编写程序时,我可以使用 FileSplit 找到映射器类中的输入文件的名称。 当我用Python编写程序时(使用流式传输?)是否有相应的方法可以做到…
通过参数初始化Hadoop中的公共静态变量
我在更改 Hadoop 中的公共静态变量时遇到问题。 我正在尝试从命令行将一些值作为参数传递给 jar 文件。 这是我的代码: public class MyClass { publi…
仅在选定节点上运行某些 Hadoop 作业,而不在其他节点上运行,并使用 Oozie 管理进程
这可能吗?我已经搜索了很多,我想说这是不可能的,但我认为这很奇怪,没有预见到如此基本的功能。 如果我有一个由 3 台机器组成的集群,其中 1 台与…
Hadoop 中的顺序文件
如何读取/解析先前 MapReduce 作业写入的顺序文件。上一个 MR 作业的 keyOut 和 ValueOut 是 Text 和 ByteWritable。我的下一个 MR 作业的映射器的键…
方法cancel()和方法interrupt()是否做重复的工作?
我阅读了 org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content) 的源代码。 这两个方法调用做同样的事情吗: 指令 1: t.interrup…
Nutch 并将爬网数据保存到 Amazon S3
我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。 PS:之前我尝试将Nutch(1.4)和Hadoop集成起来,看看它是如何工作的。 这是我总体上想要实现…
如何告诉 MapReduce 使用多少个映射器?
我正在尝试加速优化 MapReduce 作业。 有什么方法可以告诉 hadoop 使用特定数量的映射器/减速器进程吗?或者,至少,映射器进程的数量最少? 在文档中…
仅使用一个映射器的 Hadoop gzip 输入文件
可能的重复: 为什么hadoop不能分割一个大的文本文件,然后使用gzip压缩分割的内容? 我发现,当使用gzip压缩的输入文件时,Hadoop选择只分配一个map…
运行作业时Hadoop DFS权限问题
我收到以下权限错误,并且不确定为什么 hadoop 试图写入这个特定文件夹: hadoop jar /usr/lib/hadoop/hadoop-*-examples.jar pi 2 100000 Number of …
Nutch 抓取错误 - 输入路径不存在
我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址,但 nutch 失败并出现以下错误: Fetcher: segment: crawl/segments Fetcher: o…
我不知道符号“#”代表什么意思是在nutch的HttpBase.java的以下src中
当我看到nutch的HttpBase.java的src时,我不知道作者描述中的符号“#”是什么意思: // get # of threads already accessing this addr Integer count…
如何开始学习hadoop
Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…
我的Hive-UDF怎么了?如何设置hive的map号?
我使用Hadoop-Hive来分析apache日志来统计访问特征。我写了一个名为GetCity的UDF来将remote_ip转换为城市名称,但是当我运行“select GetCity(remote_…