文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

第12章大数据

发布于 2024-01-30 22:34:09 字数 469 浏览 0 评论 0 收藏 0

随着计算机的速度越来越快，内存越来越大，数据的规模也在不断增长。事实上，数据规模增长的速度比计算速度的增长还要快，这意味着它的增长速度超过了我们处理它的能力。

什么是大数据，什么又不是呢？这并不容易说清楚，所以我们采用一个有操作性的定义：当数据大到过于冗长难以处理的时候，我们就把它叫做大数据。在一些领域里，它可能意味着P级别的数据，或者万亿次的交易；数据无法放入一个硬盘里。而在其他情况下，数据量可能只是之前的1%，它只是难以处理而已。

基于从前几章里获得的一些经验，我们首先处理中等数据（不是太大的数据，但也不是太小的数据）。在这里我们将使用一个叫做Jug的程序包，它让我们可以做到以下事情：

将管道分解为任务；

缓存（记忆）中间结果；

利用多核，包括网格中的多台主机。

下一步，就是处理真正的“大数据”；我们将看到如何利用云计算（特别是亚马逊Web服务平台）。我们将使用另一个Python包——starcluster ——来管理集群。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

第12章 大数据