MapReduce

MapReduce

文章 106 浏览 158

为什么所有的reduce 任务都在一台机器上结束?

我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序。每张地图和除了常规的 Map-Reduce 任务之外,Reduce 还将一些诊断信息写入…

佼人 2024-12-02 18:31:28 1 0

如何指定tab作为hadoop输入文本文件的记录分隔符?

我的 hadoop M/R 作业的输入文件是一个文本文件,其中记录由制表符“\t”而不是换行符“\n”分隔。我如何指示hadoop使用制表符进行拆分,因为默认情况…

成熟稳重的好男人 2024-12-02 18:00:38 2 0

couchdb 映射减少和分组

我正在尝试获取某个对象(比如视频)的唯一事件计数: 这是我的文档: { "type":"View", "video_id": "12300", "user_id": 3 } { "type":"View", "vid…

囍笑 2024-12-02 01:43:02 1 0

为什么 Hadoop 中正确的缩减数量是 0.95 或 1.75?

hadoop 文档指出: 正确的归约次数似乎是 0.95 或 1.75 乘以 (*mapred.tasktracker.reduce.tasks.maximum)。 有了 0.95,所有的减少都可以立即启动并…

浅沫记忆 2024-12-01 22:06:23 0 0

mongodb:模拟 couchdb 的增量映射减少

是否有任何技术可以在 Mongodb 中模拟 couchdb 的增量 MapReduce。本质上,我们希望将周期性映射缩减为仅触及集合中的新文档。 我们可以使用 Finalize…

花桑 2024-12-01 17:32:09 0 0

计算某种类型的文档(之前针对用户进行过滤)

文件(伪,rev和id省略): { "type": 1, "username": "aron", "data": { ... } } { "type": 1, "username": "bob", "data": { ... } } { "type": 1, …

夏日落 2024-12-01 13:54:17 1 0

实施 RawComparator 真的那么快吗?

实现 RawComparator 比扩展 WritableComparator 快得多吗?查看 Text/LongWritable/etc 及其内置比较器,似乎它们基本上只是直接从完整字节数组中读取…

琉璃梦幻 2024-12-01 13:38:04 0 0

Hadoop 和 MapReduce,如何将从 csv 中提取的行数组发送到映射函数,其中每个数组包含行 x - y;

好吧,我读了很多关于 Hadoop 和 MapReduce 的文章,也许是因为我不像大多数人那样熟悉迭代器,但我有一个问题,我似乎也找不到直接答案。基本上,据…

北渚 2024-12-01 12:29:24 1 0

使用Map和Reduce进行分组

我有一些“状态”字段为“绿色”、“红色”、“琥珀色”的文档。 我确信可以使用 MapReduce 生成包含三个键(每个状态一个)的分组响应,每个键都有一…

滥情哥ㄟ 2024-11-30 17:13:25 1 0

自定义 MapReduce 输入格式 - 找不到构造函数

我正在为 Hadoop 0.20.2 编写一个自定义 InputFormat,但遇到了无法摆脱的 NoSuchMethodException。我一开始是: public class ConnectionInputFormat…

青春有你 2024-11-30 15:18:17 1 0

为什么 TeraSort 映射阶段在 CRC32.update() 函数中花费大量时间?

我正在尝试分析哪些函数在 TeraSort Hadoop 作业中消耗最多时间。对于我的测试系统,我使用基本的 1 节点伪分布式设置。这意味着NameNode、DataNode、…

命硬 2024-11-30 12:34:41 1 0

在 Google 应用引擎上运行 hadoop?

是否可以在 Google 应用程序引擎上运行地图缩减作业? 任何参考或教程都会有帮助 谢谢…

苦行僧 2024-11-30 07:03:59 0 0

如何增加映射器配额?

我正在使用 Google App Engine Mapper API 删除 GAE 数据存储中特定实体的所有行(大约 2M)。然而,即使我有一个计费帐户,我仍然得到 - com.google.…

鹊巢 2024-11-29 17:25:58 1 0

MongoDB MapReduce 就地更新如何

*基本上,我试图根据过去一小时内的分数对对象进行排序。 我正在尝试为数据库中的对象生成每小时的投票总和。投票被嵌入到每个对象中。对象架构如下所…

且行且努力 2024-11-29 14:34:05 0 0

Cassandra 升级 0.8.2->0.8.4 出现错误“无法连接到所有端点”

cassandra从0.8.2升级到0.8.4后,出现此错误 我已经重新启动了 cassandra、删除了数据等,但没有任何帮助 我在云端有 6 台相同的机器,之前运行良好。…

乱世争霸 2024-11-29 10:24:44 1 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文