返回介绍

4 大数据的机器学习库

发布于 2024-09-08 14:43:39 字数 2305 浏览 0 评论 0 收藏 0

表格 7 大数据的机器学习库

 语言简介特性
Apache MADlibJavaPivotal 公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法。 2015 年 7 月开始孵化;2018.5,成为 Apache TLP。 其当前最新版本为 MADlib 1.12。可以与 PostgreSQL、Greenplum 和 HAWQ 等数据库系统无缝集成。
Apache MahoutJavaApache 上的旗舰机器学习框架。Mahout 可用来进行分类、聚类和推荐。支持 Spark SQL

4.1 Apache MADlib

MADlib 具有与上述工具完全不同的设计理念,它不是面向程序员的,而是面向数据库开发或 DBA 的。如果用一句话说明什么是 MADlib,那就是“SQL 中的大数据机器学习库”。

4.1.1 MADlib 架构

MADlib 架构.png
图 1 MADlib 架构
MADlib 系统架构自上至下由以下四个主要组件构成:

  • Python 调用 SQL 模板实现的驱动函数
  • Python 实现的高级抽象层
  • C++实现的核心函数
  • C++实现的低级数据库抽象层

设计思想
驱动 MADlib 架构的主要设计思想与 Hadoop 是一致的,体现在以下方面:

  • 操作数据库内的本地数据,不在多个运行时环境中进行不必要的数据移动。
  • 充分利用数据库引擎功能,但将数据挖掘逻辑从特定数据库的实现细节中分离出来。
  • 利用 MPP 无共享技术提供的并行性和可扩展性,如 Greenplum 或 HAWQ 数据库系统。
  • 执行的维护活动对 Apache 社区和正在进行的学术研究开放。

madlib 执行流程.jpg
图 2 madlib

4.1.2 MADlib 支持的模型类型

MADlib 支持以下常用的数据挖掘与机器学习模型类型,其中大部分模型都包含训练和预测两组函数。
支持的模型有:回归、分类、聚类、关联规则挖掘、主题建模、描述性统计和模型验证。

MADlib 功能.png
图 3 MADlib 功能

4.2 Apache Mahout

本章参考

[1]. madlib http://madlib.apache.org/
[2]. Greenplum 上的机器学习——MADlib 简介与应用实例 http://blog.sina.com.cn/s/blog_12c856e4c0102yjem.html
[3]. 用 SQL 玩转数据挖掘之 MADlib(一)——安装 https://www.cnblogs.com/chenergougou/p/7107985.html
[4]. MADlib——基于 SQL 的数据挖掘解决方案(2)——MADlib 基础 https://blog.csdn.net/wzy0623/article/details/78845020

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文