当前位置：文江博客话题详情

XML hadoop mahout

hadoop 中的 XML 处理

发布于 2024-11-07 15:08:01 字数 204 浏览 6 评论 0原文

我的 hdfs 中有近 200 多个 xml 文件。我使用（mahout 的）XmlInputFormat 来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件得到处理。但是当我们处理大量小文本文件时，第一个文件处理完毕后，下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为以及应该如何迭代整个 xml 文件集。谢谢。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

寂寞花火° 2024-11-14 15:08:02

我很幸运使用正常的 XmlStreamRecordReader 类，然后循环标准输入（使用 Python、Hadoop Streaming API）。

文件有多大，您是在单个系统还是多节点集群上运行它？ HDFS 块大小设置为多少？

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文