文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

10.4 统计模型分布式优化框架

发布于 2024-08-17 00:01:36 字数 769 浏览 0 评论 0 收藏 0

在上面介绍的一些统计机器学习模型中可以发现，指数族分布及其充分统计量在计算流程中起着非常关键的枢纽作用。不论是指数族分布的最大似然解、指数族混合分布的最大似然解，还是指数族分布的贝叶斯学习，如果采用 MapReduce的计算框架，都可以用图10-3来描述。

图10-3 指数族分布MapReduce学习框架

从这一计算流程可以看出，对于大规模数据上的许多机器学习计算问题，MapReduce是一个可行的选择：因为在机器之间交换的数据只是统计量或者充分统计量，其空间复杂度仅仅与模型的参数数目有关，与数据的多少并无直接关系。不过，MapReduce的方案却并不是一个高效的方案，当算法需要多次迭代才能完成的时候，由于需要在每次 Map过程中重新加载数据，使得整个过程的I/O负担变得较重，从而降低整个计算过程的效率。这里的分析主要是针对上面指数族分布相关的概率估计问题，但是对于前面提到的迭代式优化问题也同样成立。

由于 MapReduce 方案在面对迭代求解问题时效率不高，我们应该考虑其他替代方案。当数据的规模可以承受时，采用Spark之类的计算框架会更加高效，可以参考9.5.9一节中的介绍。而在Hadoop新一代的调度器YARN的基础上，Spark可以直接架设在Hadoop底层的分布式存储 HDFS 上，这使得数据可以直接在 Spark 的计算过程中复用，并没有在不同集群之间大量传递数据的开销。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

10.4 统计模型分布式优化框架

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。