当前位置：文江博客话题详情

分布式数据聚合、查询、过滤：有 Hadoop/Mapreduce 的替代框架吗？（MR太慢了）

发布于 2024-12-27 16:32:36 字数 252 浏览 2 评论 0原文

我们计划将大量指标数据放入某种 nosql 数据库中，可能是 cassandra，也可能是其他东西，跨多个服务器。

我们希望以 MapReduce 方式对数据进行计算（聚合数据所在机器上的数据，然后合并结果）。

我使用 Cassandra、Hadoop 和 MapReduce 制作了一个 POC。启动 MapReduce 作业和获取结果的开销对于我们的需求来说太高了。

在我们推出自己的框架之前，还有其他强调性能的分布式 Java 框架吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

各空 2025-01-03 16:32:36

查看 Oracle Coherence，这是一种允许分区的分布式缓存虚拟机之间的数据，并行聚合和计算，水平扩展。

回复收藏 0 原文

ㄖ落Θ余辉 2025-01-03 16:32:36

看看storm。

来自文档：

Storm 是一个分布式实时计算系统。与 Hadoop 提供一组用于执行批处理的通用原语类似，Storm 提供一组用于执行实时计算的通用原语。 Storm 很简单，可以与任何编程语言一起使用，并且使用起来很有趣！

回复收藏 0 原文

猫瑾少女 2025-01-03 16:32:36

在我们推出自己的框架之前，还有其他强调性能的分布式 Java 框架吗？ - 每个框架都会尝试强调性能作为维度之一。

我使用 Cassandra、Hadoop 和 MapReduce 制作了一个 POC。启动 MapReduce 作业和获取结果的开销对于我们的需求来说太高了。

Cassandra 是 MR 的输入源类型之一。使用 MR 将涉及映射任务开始/完成、洗牌和减少任务开始/完成的时间。 MR 是为批处理而设计的，而不是为即时结果而设计的。可以进行一定程度的调整，但您应该寻找实时或流处理框架。

看看HStreaming（注意我没用过）

HStreaming 可以使用相同的 MapReduce 和 Apache Pig 算法和函数进行实时或批处理。现有代码（例如用户定义函数 (UDF)）可以迁移到流处理，无需进行任何更改或只需进行最少的更改。它为您的业务带来快速的开发周期，并让您能够灵活地快速适应不断变化的业务需求。

回复收藏 0 原文

娇纵 2025-01-03 16:32:36

我看到商业列存储数据库 vertica 具有类似于 MapReduce 的功能。尽管您使用 SQL 语句的版本来表达聚合。我确信这个产品并不便宜，但......

回复收藏 0 原文

~没有更多了~

关于作者

匿名的好友

暂无简介

文章

26 人气

关注发私信

尘曦

文章 0 评论 0

关注

在梵高的星空下

文章 0 评论 0

关注

善良天后

文章 0 评论 0

关注

韬韬不绝

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

不美如何

文章 0 评论 0

友情链接

文江博客

分布式数据聚合、查询、过滤：有 Hadoop/Mapreduce 的替代框架吗？（MR太慢了）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

分布式数据聚合、查询、过滤：有 Hadoop/Mapreduce 的替代框架吗？ （MR太慢了）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

分布式数据聚合、查询、过滤：有 Hadoop/Mapreduce 的替代框架吗？（MR太慢了）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。