返回介绍

2 大数据工具

发布于 2024-09-24 22:58:59 字数 2090 浏览 0 评论 0 收藏 0

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或 EB 的大小。这些数 据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频 和图像档案,及大型电子商务。

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

Hadoop 系列 :Hadoop HDFS、Hadoop MapReduce, HBase、Hive 等构成 Hadoop 生态圈。

  • Hadoop MapReduce 不适合实时计算:任务分配 Server 不会将信息 Push 到计算 Node,而是让计算 Node 通过心跳去 Pull 任务。基于框架的通用 性,MapReduce 代码也会在 HDFS 中传送,在各计算 Node 展开,再通过启动新 JVM 进程装载并运行。类似的 JVM 进程启停有 5、6 次之多。 Reduce Task 只能在所有 Map Task 完成之后才能启动。
  • Hypertable 是另类。它存在于 Hadoop 生态圈之外,但也曾经有一些用户。

表格 2 大数据工具列表(按主题分类)

主题主流工具
Hadoop 系列Hadoop HDFS、Hadoop MapReduce/Spack/Storm、HBase、Hive
数据仓库Teradata AsterData、EMC GreenPlum、HP Vertica 等。
数据集市QlikView、Tableau、国内永洪科技 Yonghong Data Mart 等。
前端展现开源:JasperSoft、Pentaho、Spagobi、Openi、Birt 等。 商用: Cognos、BO、Microsoft、Oracle、Microstrategy、QlikView、Tableau、国内永洪科技 Yonghong Z-Suite 等。

表格 3 大数据开源工具列表

工具名简介备注
WekaMachine Learning Projec. An exciting and potentially far-reaching development in computer science is the invention and application of methods of machine learning. RapidMiner 实现了 Weka 的所有算法,兼容 Weka 的数据格式。开源
Bow专门为文本处理设计的开源包。Bow 包括三个部分:Rainbow(文本分类)、Arrow(文本检索)和 Crossbow(文本聚类)。开源
OrangeC++和 Python 语言编写的开放源代码数据挖掘软件开源
SVM  
pandas 开源

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文