为什么所有的reduce 任务都在一台机器上结束?
我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序。每张地图和除了常规的 Map-Reduce 任务之外,Reduce 还将一些诊断信息写入…
如何指定tab作为hadoop输入文本文件的记录分隔符?
我的 hadoop M/R 作业的输入文件是一个文本文件,其中记录由制表符“\t”而不是换行符“\n”分隔。我如何指示hadoop使用制表符进行拆分,因为默认情况…
couchdb 映射减少和分组
我正在尝试获取某个对象(比如视频)的唯一事件计数: 这是我的文档: { "type":"View", "video_id": "12300", "user_id": 3 } { "type":"View", "vid…
为什么 Hadoop 中正确的缩减数量是 0.95 或 1.75?
hadoop 文档指出: 正确的归约次数似乎是 0.95 或 1.75 乘以 (*mapred.tasktracker.reduce.tasks.maximum)。 有了 0.95,所有的减少都可以立即启动并…
mongodb:模拟 couchdb 的增量映射减少
是否有任何技术可以在 Mongodb 中模拟 couchdb 的增量 MapReduce。本质上,我们希望将周期性映射缩减为仅触及集合中的新文档。 我们可以使用 Finalize…
计算某种类型的文档(之前针对用户进行过滤)
文件(伪,rev和id省略): { "type": 1, "username": "aron", "data": { ... } } { "type": 1, "username": "bob", "data": { ... } } { "type": 1, …
实施 RawComparator 真的那么快吗?
实现 RawComparator 比扩展 WritableComparator 快得多吗?查看 Text/LongWritable/etc 及其内置比较器,似乎它们基本上只是直接从完整字节数组中读取…
Hadoop 和 MapReduce,如何将从 csv 中提取的行数组发送到映射函数,其中每个数组包含行 x - y;
好吧,我读了很多关于 Hadoop 和 MapReduce 的文章,也许是因为我不像大多数人那样熟悉迭代器,但我有一个问题,我似乎也找不到直接答案。基本上,据…
自定义 MapReduce 输入格式 - 找不到构造函数
我正在为 Hadoop 0.20.2 编写一个自定义 InputFormat,但遇到了无法摆脱的 NoSuchMethodException。我一开始是: public class ConnectionInputFormat…
为什么 TeraSort 映射阶段在 CRC32.update() 函数中花费大量时间?
我正在尝试分析哪些函数在 TeraSort Hadoop 作业中消耗最多时间。对于我的测试系统,我使用基本的 1 节点伪分布式设置。这意味着NameNode、DataNode、…
如何增加映射器配额?
我正在使用 Google App Engine Mapper API 删除 GAE 数据存储中特定实体的所有行(大约 2M)。然而,即使我有一个计费帐户,我仍然得到 - com.google.…
Cassandra 升级 0.8.2->0.8.4 出现错误“无法连接到所有端点”
cassandra从0.8.2升级到0.8.4后,出现此错误 我已经重新启动了 cassandra、删除了数据等,但没有任何帮助 我在云端有 6 台相同的机器,之前运行良好。…