当前位置：文江博客话题详情

hadoop etl hive MySQL spring-batch

Spring-Batch 用于大规模夜间/每小时 Hive/MySQL 数据处理

发布于 2024-09-14 05:34:29 字数 1131 浏览 6 评论 0 原文

我正在考虑替换一堆 Python ETL 脚本，这些脚本对大量数据执行每晚/每小时的数据摘要和统计收集。

我想要实现的是

鲁棒性 - 失败的作业/步骤应该自动重新启动。在某些情况下，我想改为执行恢复步骤。
该框架必须能够从崩溃中恢复。我想这里需要一些坚持。
监控 - 我需要能够监控作业/步骤的进度，最好查看有关性能的历史记录和统计数据。
可追溯性 - 我必须能够了解执行的状态
手动干预 - 很高兴...能够从 API / UI / 命令行启动/停止/暂停作业。
简单性——当我介绍替代品时，我不想看到同事们生气的表情……有一个简单且易于理解的 API 是一个要求。

当前的脚本执行以下操作：

从许多计算机收集文本日志，并将它们推送到 Hadoop DFS 中。将来我们可能会使用 Flume 来执行此步骤（请参阅 http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/）。
对数据执行Hive汇总查询，并插入（覆盖）到新的Hive表/分区。
将新的摘要数据提取到文件中，然后加载（合并）到 MySql 表中。这是稍后在线报告所需的数据。
对新添加的 MySql 数据（来自 MySql 表）执行附加联接，并更新数据。

我的想法是用 spring-batch 替换脚本。我还研究了 Scriptella，但我认为对于这种情况来说它太“简单”。

因为我在 Spring-Batch 上看到了一些不好的感觉（主要是旧帖子），所以我希望在这里得到一些意见。 spring-batch 和 Hive 集成我也没有看到太多，比较麻烦。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

ま柒月 2024-09-21 05:34:29

如果您想留在 Hadoop 生态系统中，我强烈建议您查看 Oozie 来自动化您的工作流程。我们 (Cloudera) 提供了Oozie 的打包版本，您可以使用它来开始使用。请参阅我们最近的博客文章了解更多细节。

回复收藏 0 原文

若水微香 2024-09-21 05:34:29

为什么不使用 JasperETL 或人才？似乎是适合这项工作的工具。

回复收藏 0 原文

回忆追雨的时光 2024-09-21 05:34:29

我已经使用过 Cascading 相当多了，发现它非常令人印象深刻：

它是一个 M/R 抽象层，并在 Hadoop 上运行。

回复收藏 0 原文

~没有更多了~

关于作者

盗琴音

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

更多

推荐作者

关注

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文