当前位置：文江博客话题详情

就我的情况而言，Hadoop 会给我带来更多好处吗？

发布于 2024-11-27 17:52:03 字数 192 浏览 0 评论 0原文

我使用 Clojure 每小时提取 10 个 XML 文件，每个文件大约 10 MB。该脚本正在服务器计算机上运行。
XML 文件现在被解析并存储到 RDBMS 中（所有操作都是使用本机 Clojure 代码完成的）。

考虑到我的情况，如果我使用 Hadoop Map/Reduce 来解析 XML 文件，我是否会获得更多好处？或者它会矫枉过正？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

缘字诀 2024-12-04 17:52:03

在这种情况下，使用 Hadoop 肯定是大材小用。如果你要使用 Hadoop 并行解析 10 个文件，

它会从每个 Map 任务生成 10 个 JVM
，它可以为 Reduce 任务生成另外 1 个 JVM（当然，你可以有一个仅 Map 的 hadoop 作业，而你不需要 Reduce 阶段）
Map 和Reduce 阶段之间会有一个shuffle 阶段，其中所有Map 输出都通过网络发送到Reduce 节点

如果您的文件每个最大为10 Mb，那么我看不到太多优势，事实上您会看到JVM 启动和过多 IO 会产生大量开销。

我想说，一旦每个文件超过 100 - 150 Mb，您就应该考虑 Hadoop

回复收藏 0 原文

三岁铭 2024-12-04 17:52:03

我有两个 clojure 示例可供您进行比较：

1 个应用程序解析数千个 xml 文件，每个文件大小约为 1 Mb 或更小，并且在正常负载下每个文件的处理时间约为 50 毫秒。
1 个其他应用程序对相对较大的日志文件进行处理，每个日志文件 50mb-100mb，每个处理时间约为 1-2 秒。

当然，这取决于服务器的处理能力，但一切都是在 Clojure 中完成的，没有任何瓶颈的迹象。

回复收藏 0 原文

~没有更多了~

关于作者

深海少女心

暂无简介

0 文章

0 评论

24 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

就我的情况而言，Hadoop 会给我带来更多好处吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签