文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
10.4 统计模型分布式优化框架
在上面介绍的一些统计机器学习模型中可以发现,指数族分布及其充分统计量在计算流程中起着非常关键的枢纽作用。不论是指数族分布的最大似然解、指数族混合分布的最大似然解,还是指数族分布的贝叶斯学习,如果采用 MapReduce的计算框架,都可以用图10-3来描述。
图10-3 指数族分布MapReduce学习框架
从这一计算流程可以看出,对于大规模数据上的许多机器学习计算问题,MapReduce是一个可行的选择:因为在机器之间交换的数据只是统计量或者充分统计量,其空间复杂度仅仅与模型的参数数目有关,与数据的多少并无直接关系。不过,MapReduce的方案却并不是一个高效的方案,当算法需要多次迭代才能完成的时候,由于需要在每次 Map过程中重新加载数据,使得整个过程的I/O负担变得较重,从而降低整个计算过程的效率。这里的分析主要是针对上面指数族分布相关的概率估计问题,但是对于前面提到的迭代式优化问题也同样成立。
由于 MapReduce 方案在面对迭代求解问题时效率不高,我们应该考虑其他替代方案。当数据的规模可以承受时,采用Spark之类的计算框架会更加高效,可以参考9.5.9一节中的介绍。而在Hadoop新一代的调度器YARN的基础上,Spark可以直接架设在Hadoop底层的分布式存储 HDFS 上,这使得数据可以直接在 Spark 的计算过程中复用,并没有在不同集群之间大量传递数据的开销。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论