当前位置：文江博客话题详情

Hadoop 和 MySQL 集成

发布于 2024-10-14 21:18:58 字数 180 浏览 4 评论 0原文

我们希望在我们的系统上实施 Hadoop 以提高其性能。

该过程的工作原理如下： Hadoop将从MySQL数据库收集数据然后对其进行处理。然后输出将被导出回 MySQL 数据库。

这是一个好的实施吗？这会提高我们系统的整体性能吗？有什么要求？以前是否这样做过？一个好的教程确实会有帮助。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

日裸衫吸 2024-10-21 21:18:58

Sqoop 是一个旨在将数据从关系数据库导入 Hadoop 的工具

https://github.com/cloudera/sqoop /wiki/

以及有关它的视频 http://www.cloudera.com/blog/2009/12/hadoop-world-sqoop-database-import-for-hadoop/

回复收藏 0 原文

浅听莫相离 2024-10-21 21:18:58

Hadoop 用于基于批处理的作业，主要针对大型半结构化数据。批处理从某种意义上说，即使是最短的作业也只有几分钟的量级。您面临什么样的性能问题？是基于数据转换还是报告。根据情况，这种架构可能会有所帮助，也可能会使事情变得更糟。

回复收藏 0 原文

帅气称霸 2024-10-21 21:18:58

正如 Joe 所提到的，Sqoop 是 Hadoop 生态系统中导入和导出数据的绝佳工具。以及 SQL 数据库，例如 MySQL。

如果您需要更复杂的 MySQL 集成，包括过滤或转换，那么您应该使用集成框架或集成套件来解决此问题。看看我的演示文稿“Hadoop 之外的大数据 - 如何集成您的所有数据" 了解有关如何使用的更多信息开源集成框架和与 Hadoop 的集成套件。

回复收藏 0 原文

忆沫 2024-10-21 21:18:58

尽管这不是常规的 hadoop 用法。在以下场景中可能有意义：

a）如果您有很好的方法将数据分区到输入中（例如现有分区）。

b) 每个分区的处理量比较重。我会给出每个分区至少 10 秒的 CPU 时间数。

如果满足这两个条件 - 您将能够应用任何所需的 CPU 功率来进行数据处理。

如果您正在进行简单的扫描或聚合 - 我认为您将不会获得任何结果。另一方面 - 如果您要在每个分区上运行一些 CPU 密集型算法 - 那么您的收益确实会很大。

我还要提到一个单独的情况 - 如果您的处理需要大量数据排序。我不认为 MySQL 擅长对数十亿条记录进行排序。 Hadoop 会做到这一点。