SpringBatch 中的 MapReduce/聚合操作

发布于 2024-11-10 00:53:27 字数 502 浏览 10 评论 0原文

是否可以在SpringBatch中进行MapReduce风格的操作？

我的批处理工作有两个步骤。第一步计算平均值。第二步将每个值与平均值进行比较以确定另一个值。

例如，假设我有一个巨大的学生成绩数据库。第一步计算每门课程/考试的平均分数。第二步将个人分数与平均分进行比较，根据一些简单的规则确定成绩：

A 如果学生分数高于平均分
B 如果学生分数为平均分
C 如果学生分数低于平均分

目前我的第一步是一个 Sql，它选择平均分并将其写入到桌子。第二步是一个 Sql，它将平均分数与个人分数结合起来，并使用处理器来实现规则。

Steps 中经常使用类似的聚合函数，例如 avg、min，我真的更希望这可以在处理器中完成，从而使 Sqls 尽可能简单。有没有办法编写一个处理器，根据分组标准聚合多行结果，然后将平均值/最小值写入输出表一次？

这种模式重复了很多次，我并不是在寻找使用 Sql 来获取平均分数和个人分数的单处理器实现。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

迷迭香的记忆 2024-11-17 00:53:27

这是可能的。您甚至不需要多于一步。 Map-Reduce 可以一步实现。您可以创建一个与 ItemReader 和 ItemWriter 关联的步骤。将 ItemReader -ItemWriter 对视为 Map-Reduce。您可以通过使用具有适当行聚合的自定义读取器和写入器来实现必要的效果。对于您的读者/编写者来说，实现 Stream 接口以保证 Spring 批处理的中间 StepContext 保存操作可能是一个好主意。

我只是为了好玩而尝试，但我认为这是没有意义的，因为你的工作能力受到单个 JVM 的限制，换句话说：你无法达到 Hadoop 集群（或其他真实的 MapReduce 实现）生产环境的性能。此外，随着数据大小的增长，可扩展性将变得非常困难。

很好的观察，但在我看来，目前对于现实世界的任务来说毫无用处。

回复收藏 0 原文