有1TB的数据,这些数据都是以单行单个数字的形式存储,使用MapReduce来构建一个分布式处理架构对这些数据进行排序。

发布于 2022-09-06 09:20:56 字数 338 浏览 25 评论 0

问题:有1TB的数据,这些数据都是以单行单个数字的形式存储,使用MapReduce来构建一个分布式处理架构对这些数据进行排序。

我的解决思路:
先使用map和reduce找到每个节点中的最大值,然后在使用reduce找到全局最大值。使用全局最大值对数据集进行拆分(比如最大值是99999,拆成0-10000对应的key是0,10000-20000对应的key是1……),然后在对原数据进行map将数据分别映射到对应的区间中,接下来使用reduce将同一个key的保存到“part_(key值)”文件。然后在分别对这些文件中的数据进行排序,就可以得到最终的排序结果。

欢迎大佬们来发表自己的方法,我也不知道自己的思路是否可行。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文