用于构建分布式日志聚合器(如 Splunk)的最佳组件堆栈是什么?
我正在尝试找到可以用来构建类似于 Splunk 的最佳组件,以便聚合计算网格中大量服务器的日志。此外,它应该是分布式的,因为我每天都有大量的日志,并…
更新 hbase 中的行时遇到问题
我已经运行了示例:SampleUploader、PerformanceEvaluation 和 rowcount,如 hadoop wiki 中给出的: http://wiki .apache.org/hadoop/Hbase/MapReduc…
如何使用 Map/Reduce 选取随机(小)数据样本?
我想编写一个映射/归约作业来根据行级别条件从大型数据集中选择多个随机样本。我想尽量减少中间键的数量。 伪代码: for each row if row matches con…
这种架构在 Hadoop MR 中可行吗?
Hadoop MapReduce 中是否可以采用以下架构? 使用分布式键值存储(HBase)。因此,除了值之外,还会有一个与这些值关联的时间戳。地图&减少任务是…
如何使用 PHP Stargate 客户端将数据插入 Hbase 表
我正在安装 HBase 集群,并尝试通过 Stargate REST 接口访问数据。大多数只读功能(即列出表、获取版本、元数据等)都可以很好地工作。但是,我在将数…
来自 HBase 的 Hadoop MapReduce 流式传输
我正在构建一个 Hadoop (0.20.1) mapreduce 作业,它使用 HBase (0.20.1) 作为数据源和数据接收器。我想用 Python 编写这项工作,这要求我使用 hadoop…
如果 HBase 不是在分布式环境中运行,它还有意义吗?
我正在构建一个数据索引,这将需要以 (文档、术语、权重) 的形式存储大量三元组。我将存储多达几百万个这样的行。目前我正在 MySQL 中将其作为一个…
Hadoop MapReduce 中的地图应用程序缓存?
从数据流的角度来看 MapReduce 和 HBase 的组合,我的问题似乎很合适。我有一大堆文档想要映射、合并和减少。我之前的 SQL 实现是将任务拆分为批处理…
对于有 RDBMS 背景的人来说,哪种键值存储最合适?
所有键值存储中是否有一个明显的赢家?卡桑德拉、MongoDB、CouchDB?它们都遵循一些中心准则吗?或者他们在定义 API 时都有自己的发言权。 我问这个问…
HBase 中的高级查询
给定以下 HBase 架构场景(来自官方常见问题解答)... 你会如何设计 Hbase 表 对于多对多关联 两个实体,例如 Student 和 当然? 我会定义两个表: St…
BigTable可以做OLAP吗?
过去,我曾经使用在 MySQL 上运行的 OLAP 多维数据集来构建 WebAnalytics。 现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储方式比这更…