文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第12章 大数据
随着计算机的速度越来越快,内存越来越大,数据的规模也在不断增长。事实上,数据规模增长的速度比计算速度的增长还要快,这意味着它的增长速度超过了我们处理它的能力。
什么是大数据,什么又不是呢?这并不容易说清楚,所以我们采用一个有操作性的定义:当数据大到过于冗长难以处理的时候,我们就把它叫做大数据。在一些领域里,它可能意味着P级别的数据,或者万亿次的交易;数据无法放入一个硬盘里。而在其他情况下,数据量可能只是之前的1%,它只是难以处理而已。
基于从前几章里获得的一些经验,我们首先处理中等数据(不是太大的数据,但也不是太小的数据)。在这里我们将使用一个叫做Jug的程序包,它让我们可以做到以下事情:
将管道分解为任务;
缓存(记忆)中间结果;
利用多核,包括网格中的多台主机。
下一步,就是处理真正的“大数据”;我们将看到如何利用云计算(特别是亚马逊Web服务平台)。我们将使用另一个Python包——starcluster ——来管理集群。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论