返回介绍

10.4 统计模型分布式优化框架

发布于 2024-08-17 00:01:36 字数 769 浏览 0 评论 0 收藏 0

在上面介绍的一些统计机器学习模型中可以发现,指数族分布及其充分统计量在计算流程中起着非常关键的枢纽作用。不论是指数族分布的最大似然解、指数族混合分布的最大似然解,还是指数族分布的贝叶斯学习,如果采用 MapReduce的计算框架,都可以用图10-3来描述。

图10-3 指数族分布MapReduce学习框架

从这一计算流程可以看出,对于大规模数据上的许多机器学习计算问题,MapReduce是一个可行的选择:因为在机器之间交换的数据只是统计量或者充分统计量,其空间复杂度仅仅与模型的参数数目有关,与数据的多少并无直接关系。不过,MapReduce的方案却并不是一个高效的方案,当算法需要多次迭代才能完成的时候,由于需要在每次 Map过程中重新加载数据,使得整个过程的I/O负担变得较重,从而降低整个计算过程的效率。这里的分析主要是针对上面指数族分布相关的概率估计问题,但是对于前面提到的迭代式优化问题也同样成立。

由于 MapReduce 方案在面对迭代求解问题时效率不高,我们应该考虑其他替代方案。当数据的规模可以承受时,采用Spark之类的计算框架会更加高效,可以参考9.5.9一节中的介绍。而在Hadoop新一代的调度器YARN的基础上,Spark可以直接架设在Hadoop底层的分布式存储 HDFS 上,这使得数据可以直接在 Spark 的计算过程中复用,并没有在不同集群之间大量传递数据的开销。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文