mongodb 地图缩减:“第一/最低”价值?
我有这样的文档: { "_id" : "someid", "name" : "somename", "action" : "do something", "date" : ISODate("2011-08-19T09:00:00Z") } 我想将它们映…
Hive 如何决定何时使用 MapReduce、何时不使用?
举个简单的例子, select * from tablename; 地图缩减不会启动,但 select count(*) from tablename; 会启动。决定何时使用MapReduce(通过Hive)的一…
如何使用 MultipleTextOutputFormat 类将默认输出文件重命名为一些有意义的名称?
在 Hadoop 的归约阶段之后,我希望输出文件名根据输入键值而有意义。然而,我没有成功地遵循“Hadoop:权威指南”上的示例,该示例使用 MultipleTextO…
MapReduce - 字数统计示例有什么好处
我想了解 MapReduce 有什么好处,我刚刚第一次阅读了有关它的一些介绍。 他们都使用这个在大量文档中计算单词数的规范示例,但我没有看到好处。以下是…
HBase Shell启动的MapReduce作业是否应该在Jobtracker中可见桌排?
count 命令的 HBase shell 帮助指出: 计算表中的行数。此操作可能需要很长时间 时间(运行 '$HADOOP_HOME/bin/hadoop jar hbase.jar rowcount' 来运…
如何告诉 MapReduce 使用多少个映射器?
我正在尝试加速优化 MapReduce 作业。 有什么方法可以告诉 hadoop 使用特定数量的映射器/减速器进程吗?或者,至少,映射器进程的数量最少? 在文档中…
仅使用一个映射器的 Hadoop gzip 输入文件
可能的重复: 为什么hadoop不能分割一个大的文本文件,然后使用gzip压缩分割的内容? 我发现,当使用gzip压缩的输入文件时,Hadoop选择只分配一个map…
如何修改此 Mapreduce 代码以更改实体的命名空间?
我正在使用 Ikai Lan 创建的映射器: package com.ikai.mapperdemo.mappers; import java.util.Date; import java.util.logging.Logger; import org.a…
如何开始学习hadoop
Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…
我的Hive-UDF怎么了?如何设置hive的map号?
我使用Hadoop-Hive来分析apache日志来统计访问特征。我写了一个名为GetCity的UDF来将remote_ip转换为城市名称,但是当我运行“select GetCity(remote_…
MapReduce 与其他并行处理解决方案
所以,问题是: 1. 对于以下问题,mapreduce 开销是否太高?有谁知道每个映射/归约周期(例如在迪斯科中)对于一项非常轻的工作需要多长时间? 2. 对…
基于文档外部包含的属性的 MapReduce 聚合
假设我有一个“活动”集合,每个活动都有名称、成本和位置: {_id : 1 , name: 'swimming', cost: '3.40', location: 'kirkstall'} {_id : 2 , name: …
在 mongo 中,如何使用 Map Reduce 来按最近排序来获取组
我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数,但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么。 我假设我也可以使用 …
运行Hadoop MapReduce,是否可以调用HDFS之外的外部可执行文件
在我的映射器中,我想调用 HDFS 之外的工作节点上安装的外部软件。这可能吗?最好的方法是什么? 我知道这可能会带走 MapReduce 的一些优势/可扩展性…
mapReduce 模式的最佳 python 实现是什么?
MapReduce 的最佳 Python 实现是什么,是一个框架还是一个库,可能与 Apache hadoop 一样好,但只要它是用 Python 实现的,并且在良好的文档和文档方…