将解析后的日志数据存储在hadoop中并导出到关系型DB中

发布于 2024-09-06 08:08:23 字数 472 浏览 17 评论 0原文

我需要使用 MapReduce 依次解析 Apache 访问日志和 Tomcat 日志。从 tomcat 日志中提取的字段很少，从 Apache 日志中提取的字段很少。我需要根据时间戳合并/映射提取的字段，并将这些映射字段导出到传统的关系数据库（例如 MySQL）中。

我可以使用正则表达式或 Pig 来解析和提取信息。我面临的挑战是如何将从两个日志中提取的信息映射到单个聚合格式或文件以及如何将此数据导出到 MYSQL。

我想到的几种方法

1）将解析后的 Apache 访问日志和 tomcat 日志中的 MapReduce 输出写入单独的文件中，并将它们合并到单个文件中（再次基于时间戳）。将此数据导出到 MySQL。

2）使用Hbase或Hive将数据以表的形式存储在hadoop中并将其导出到MySQL

3）使用JDBC将mapreduce的输出直接写入MySQL。

哪种方法最可行，也请建议您知道的任何其他替代解决方案。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

罗罗贝儿 2024-09-13 08:08:23

拥有更小、更简单的 MR 作业并将它们链接在一起几乎总是比拥有大型、复杂的作业更好。我认为你最好的选择是选择像#1这样的东西。换句话说：

将 Apache httpd 日志处理成统一的格式。
将Tomcat日志处理成统一格式。
使用任何有意义的逻辑连接 1 和 2 的输出，将结果写入相同的格式。
将生成的数据集导出到您的数据库。

您可以在同一步骤中执行连接和转换（1 和 2）。使用映射进行转换并进行减少侧连接。

听起来您不需要/想要随机访问的开销，所以我不会考虑 HBase。这不是它的强项（尽管你可以在随机访问意义上通过时间戳查找 HBase 中的每条记录，查看它是否存在，合并记录，或者如果不存在则简单地插入，但是这相对而言，速度非常慢）。 Hive 可以方便地存储两种格式的“统一”结果，但您仍然需要将记录转换为该格式。

您绝对不希望reducer直接写入MySQL。这实际上对数据库造成了 DDOS 攻击。考虑一个由 10 个节点组成的集群，每个节点运行 5 个减速器，您将有 50 个并发写入同一个表。随着集群的增长，您将很快超过最大连接数并阻塞 RDBMS。

综上所述，如果您正在考虑完整的日志记录，请问问自己将这么多数据放入数据库是否有意义。这种数据量正是 Hadoop 本身旨在长期存储和处理的情况类型。如果您正在计算这些数据的聚合，请务必将其放入 MySQL。

希望这有帮助。