hadoop

hadoop

文章 899 浏览 340

获取流式hadoop程序中的输入文件名

在用 Java 编写程序时,我可以使用 FileSplit 找到映射器类中的输入文件的名称。 当我用Python编写程序时(使用流式传输?)是否有相应的方法可以做到…

最美不过初阳 2024-12-05 01:37:52 1 0

通过参数初始化Hadoop中的公共静态变量

我在更改 Hadoop 中的公共静态变量时遇到问题。 我正在尝试从命令行将一些值作为参数传递给 jar 文件。 这是我的代码: public class MyClass { publi…

叫思念不要吵 2024-12-04 22:20:25 2 0

仅在选定节点上运行某些 Hadoop 作业,而不在其他节点上运行,并使用 Oozie 管理进程

这可能吗?我已经搜索了很多,我想说这是不可能的,但我认为这很奇怪,没有预见到如此基本的功能。 如果我有一个由 3 台机器组成的集群,其中 1 台与…

给我一枪 2024-12-04 22:10:29 2 0

Hadoop 中的顺序文件

如何读取/解析先前 MapReduce 作业写入的顺序文件。上一个 MR 作业的 keyOut 和 ValueOut 是 Text 和 ByteWritable。我的下一个 MR 作业的映射器的键…

木有鱼丸 2024-12-04 16:39:58 1 0

方法cancel()和方法interrupt()是否做重复的工作?

我阅读了 org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content) 的源代码。 这两个方法调用做同样的事情吗: 指令 1: t.interrup…

美羊羊 2024-12-04 14:40:18 2 0

Nutch 并将爬网数据保存到 Amazon S3

我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。 PS:之前我尝试将Nutch(1.4)和Hadoop集成起来,看看它是如何工作的。 这是我总体上想要实现…

吃兔兔 2024-12-04 07:58:28 3 0

如何告诉 MapReduce 使用多少个映射器?

我正在尝试加速优化 MapReduce 作业。 有什么方法可以告诉 hadoop 使用特定数量的映射器/减速器进程吗?或者,至少,映射器进程的数量最少? 在文档中…

痴情换悲伤 2024-12-04 07:56:13 2 0

仅使用一个映射器的 Hadoop gzip 输入文件

可能的重复: 为什么hadoop不能分割一个大的文本文件,然后使用gzip压缩分割的内容? 我发现,当使用gzip压缩的输入文件时,Hadoop选择只分配一个map…

始终不够爱げ你 2024-12-04 04:27:15 4 0

运行作业时Hadoop DFS权限问题

我收到以下权限错误,并且不确定为什么 hadoop 试图写入这个特定文件夹: hadoop jar /usr/lib/hadoop/hadoop-*-examples.jar pi 2 100000 Number of …

他是夢罘是命 2024-12-04 01:36:06 0 0

如何从大数据源中排除重复记录?

我已经开始处理以 JSON 格式到达的大型数据集。不幸的是,提供数据馈送的服务提供了大量的重复记录。从好的方面来说,每条记录都有一个唯一的 ID 号,…

薄荷→糖丶微凉 2024-12-04 00:04:54 2 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址,但 nutch 失败并出现以下错误: Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 2 0

我不知道符号“#”代表什么意思是在nutch的HttpBase.java的以下src中

当我看到nutch的HttpBase.java的src时,我不知道作者描述中的符号“#”是什么意思: // get # of threads already accessing this addr Integer count…

水溶 2024-12-03 20:23:58 1 0

如何开始学习hadoop

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…

爱殇璃 2024-12-03 14:06:42 2 0

我的Hive-UDF怎么了?如何设置hive的map号?

我使用Hadoop-Hive来分析apache日志来统计访问特征。我写了一个名为GetCity的UDF来将remote_ip转换为城市名称,但是当我运行“select GetCity(remote_…

三生一梦 2024-12-03 12:04:52 3 0

Hadoop Hive DOUBLE 类型问题

来自新用户的快速 Hive/Hadoop 问题。 我有一个 DOUBLE 列,其值为“1.8E8”,这是否意味着我达到了 DOUBLE 的最大值? …

烦人精 2024-12-03 05:53:14 1 0
更多

推荐作者

離殇

文章 0 评论 0

小姐丶请自重

文章 0 评论 0

Aik

文章 0 评论 0

国产ˉ祖宗

文章 0 评论 0

猥琐帝

文章 0 评论 0

半仙

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文