文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
2 大数据工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或 EB 的大小。这些数 据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频 和图像档案,及大型电子商务。
在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
Hadoop 系列 :Hadoop HDFS、Hadoop MapReduce, HBase、Hive 等构成 Hadoop 生态圈。
- Hadoop MapReduce 不适合实时计算:任务分配 Server 不会将信息 Push 到计算 Node,而是让计算 Node 通过心跳去 Pull 任务。基于框架的通用 性,MapReduce 代码也会在 HDFS 中传送,在各计算 Node 展开,再通过启动新 JVM 进程装载并运行。类似的 JVM 进程启停有 5、6 次之多。 Reduce Task 只能在所有 Map Task 完成之后才能启动。
- Hypertable 是另类。它存在于 Hadoop 生态圈之外,但也曾经有一些用户。
表格 2 大数据工具列表(按主题分类)
主题 | 主流工具 |
---|---|
Hadoop 系列 | Hadoop HDFS、Hadoop MapReduce/Spack/Storm、HBase、Hive |
数据仓库 | Teradata AsterData、EMC GreenPlum、HP Vertica 等。 |
数据集市 | QlikView、Tableau、国内永洪科技 Yonghong Data Mart 等。 |
前端展现 | 开源:JasperSoft、Pentaho、Spagobi、Openi、Birt 等。 商用: Cognos、BO、Microsoft、Oracle、Microstrategy、QlikView、Tableau、国内永洪科技 Yonghong Z-Suite 等。 |
表格 3 大数据开源工具列表
工具名 | 简介 | 备注 |
---|---|---|
Weka | Machine Learning Projec. An exciting and potentially far-reaching development in computer science is the invention and application of methods of machine learning. RapidMiner 实现了 Weka 的所有算法,兼容 Weka 的数据格式。 | 开源 |
Bow | 专门为文本处理设计的开源包。Bow 包括三个部分:Rainbow(文本分类)、Arrow(文本检索)和 Crossbow(文本聚类)。 | 开源 |
Orange | C++和 Python 语言编写的开放源代码数据挖掘软件 | 开源 |
SVM | ||
pandas | 开源 |
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论