文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
4 大数据的机器学习库
表格 7 大数据的机器学习库
语言 | 简介 | 特性 | |
---|---|---|---|
Apache MADlib | Java | Pivotal 公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法。 2015 年 7 月开始孵化;2018.5,成为 Apache TLP。 其当前最新版本为 MADlib 1.12。 | 可以与 PostgreSQL、Greenplum 和 HAWQ 等数据库系统无缝集成。 |
Apache Mahout | Java | Apache 上的旗舰机器学习框架。Mahout 可用来进行分类、聚类和推荐。 | 支持 Spark SQL |
4.1 Apache MADlib
MADlib 具有与上述工具完全不同的设计理念,它不是面向程序员的,而是面向数据库开发或 DBA 的。如果用一句话说明什么是 MADlib,那就是“SQL 中的大数据机器学习库”。
4.1.1 MADlib 架构
图 1 MADlib 架构
MADlib 系统架构自上至下由以下四个主要组件构成:
- Python 调用 SQL 模板实现的驱动函数
- Python 实现的高级抽象层
- C++实现的核心函数
- C++实现的低级数据库抽象层
设计思想
驱动 MADlib 架构的主要设计思想与 Hadoop 是一致的,体现在以下方面:
- 操作数据库内的本地数据,不在多个运行时环境中进行不必要的数据移动。
- 充分利用数据库引擎功能,但将数据挖掘逻辑从特定数据库的实现细节中分离出来。
- 利用 MPP 无共享技术提供的并行性和可扩展性,如 Greenplum 或 HAWQ 数据库系统。
- 执行的维护活动对 Apache 社区和正在进行的学术研究开放。
图 2 madlib
4.1.2 MADlib 支持的模型类型
MADlib 支持以下常用的数据挖掘与机器学习模型类型,其中大部分模型都包含训练和预测两组函数。
支持的模型有:回归、分类、聚类、关联规则挖掘、主题建模、描述性统计和模型验证。
图 3 MADlib 功能
4.2 Apache Mahout
本章参考
[1]. madlib http://madlib.apache.org/
[2]. Greenplum 上的机器学习——MADlib 简介与应用实例 http://blog.sina.com.cn/s/blog_12c856e4c0102yjem.html
[3]. 用 SQL 玩转数据挖掘之 MADlib(一)——安装 https://www.cnblogs.com/chenergougou/p/7107985.html
[4]. MADlib——基于 SQL 的数据挖掘解决方案(2)——MADlib 基础 https://blog.csdn.net/wzy0623/article/details/78845020
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论