第 10 页 - hadoop - 文江博客

投稿关注

hadoop

文章 899 浏览 340

获取流式hadoop程序中的输入文件名

在用 Java 编写程序时，我可以使用 FileSplit 找到映射器类中的输入文件的名称。当我用Python编写程序时（使用流式传输？）是否有相应的方法可以做到…

最美不过初阳 2024-12-05 01:37:52 1 0

通过参数初始化Hadoop中的公共静态变量

我在更改 Hadoop 中的公共静态变量时遇到问题。我正在尝试从命令行将一些值作为参数传递给 jar 文件。这是我的代码： public class MyClass { publi…

叫思念不要吵 2024-12-04 22:20:25 2 0

仅在选定节点上运行某些 Hadoop 作业，而不在其他节点上运行，并使用 Oozie 管理进程

这可能吗？我已经搜索了很多，我想说这是不可能的，但我认为这很奇怪，没有预见到如此基本的功能。如果我有一个由 3 台机器组成的集群，其中 1 台与…

给我一枪 2024-12-04 22:10:29 2 0

Hadoop 中的顺序文件

如何读取/解析先前 MapReduce 作业写入的顺序文件。上一个 MR 作业的 keyOut 和 ValueOut 是 Text 和 ByteWritable。我的下一个 MR 作业的映射器的键…

木有鱼丸 2024-12-04 16:39:58 1 0

方法cancel()和方法interrupt()是否做重复的工作？

我阅读了 org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content) 的源代码。这两个方法调用做同样的事情吗：指令 1： t.interrup…

美羊羊 2024-12-04 14:40:18 2 0

Nutch 并将爬网数据保存到 Amazon S3

我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。 PS：之前我尝试将Nutch（1.4）和Hadoop集成起来，看看它是如何工作的。这是我总体上想要实现…

吃兔兔 2024-12-04 07:58:28 3 0

如何告诉 MapReduce 使用多少个映射器？

我正在尝试加速优化 MapReduce 作业。有什么方法可以告诉 hadoop 使用特定数量的映射器/减速器进程吗？或者，至少，映射器进程的数量最少？在文档中…

痴情换悲伤 2024-12-04 07:56:13 2 0

仅使用一个映射器的 Hadoop gzip 输入文件

可能的重复：为什么hadoop不能分割一个大的文本文件，然后使用gzip压缩分割的内容？我发现，当使用gzip压缩的输入文件时，Hadoop选择只分配一个map…

始终不够爱げ你 2024-12-04 04:27:15 4 0

运行作业时Hadoop DFS权限问题

我收到以下权限错误，并且不确定为什么 hadoop 试图写入这个特定文件夹： hadoop jar /usr/lib/hadoop/hadoop-*-examples.jar pi 2 100000 Number of …

他是夢罘是命 2024-12-04 01:36:06 0 0

如何从大数据源中排除重复记录？

我已经开始处理以 JSON 格式到达的大型数据集。不幸的是，提供数据馈送的服务提供了大量的重复记录。从好的方面来说，每条记录都有一个唯一的 ID 号，…

薄荷→糖丶微凉 2024-12-04 00:04:54 2 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址，但 nutch 失败并出现以下错误： Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 2 0

我不知道符号“#”代表什么意思是在nutch的HttpBase.java的以下src中

当我看到nutch的HttpBase.java的src时，我不知道作者描述中的符号“#”是什么意思： // get # of threads already accessing this addr Integer count…

水溶 2024-12-03 20:23:58 1 0

如何开始学习hadoop

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题？通过编辑这篇文章来更新问题，使其仅…

爱殇璃 2024-12-03 14:06:42 2 0

我的Hive-UDF怎么了？如何设置hive的map号？

我使用Hadoop-Hive来分析apache日志来统计访问特征。我写了一个名为GetCity的UDF来将remote_ip转换为城市名称，但是当我运行“select GetCity(remote_…

三生一梦 2024-12-03 12:04:52 3 0

Hadoop Hive DOUBLE 类型问题

来自新用户的快速 Hive/Hadoop 问题。我有一个 DOUBLE 列，其值为“1.8E8”，这是否意味着我达到了 DOUBLE 的最大值？ …

烦人精 2024-12-03 05:53:14 1 0

共 113 页
上一页
8
9
10
11
12
下一页

友情链接

文江博客