返回介绍

第12章 大数据

发布于 2024-01-30 22:34:09 字数 469 浏览 0 评论 0 收藏 0

随着计算机的速度越来越快,内存越来越大,数据的规模也在不断增长。事实上,数据规模增长的速度比计算速度的增长还要快,这意味着它的增长速度超过了我们处理它的能力。

什么是大数据,什么又不是呢?这并不容易说清楚,所以我们采用一个有操作性的定义:当数据大到过于冗长难以处理的时候,我们就把它叫做大数据。在一些领域里,它可能意味着P级别的数据,或者万亿次的交易;数据无法放入一个硬盘里。而在其他情况下,数据量可能只是之前的1%,它只是难以处理而已。

基于从前几章里获得的一些经验,我们首先处理中等数据(不是太大的数据,但也不是太小的数据)。在这里我们将使用一个叫做Jug的程序包,它让我们可以做到以下事情:

将管道分解为任务;

缓存(记忆)中间结果;

利用多核,包括网格中的多台主机。

下一步,就是处理真正的“大数据”;我们将看到如何利用云计算(特别是亚马逊Web服务平台)。我们将使用另一个Python包——starcluster ——来管理集群。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文