IBM Watson Studio 简介

发布于 2023-07-20 07:04:15 字数 7288 浏览 53 评论 0

了解 IBM Watson Studio 和机器学习服务的基础知识。

简介

IBM® Watson™ Studio 学习路径演示了使用 IBM Watson Studio 预测客户流失的各种方法。从使用 AutoAI 实验工具的半自动方法，到使用 SPSS Modeler 流的图解方法，再到使用 Jupyter Notebook for Python 的完全编程样式，都一一涉及。

此学习路径中的所有教程都遵循数据科学（和数据挖掘）方法的主要步骤，例如，跨行业数据挖掘标准流程 (CRISP-DM) 和 IBM Data Science Methodology。这些教程的重点是数据理解、数据准备、建模、评估和部署用于预测性分析的机器学习模型方面的任务。它们以 Kaggle 上提供的客户流失数据集和 Notebook 为基础，然后使用 IBM Watson Studio 工具套件提供的 AutoAI、SPSS Modeler 和 IBM Watson Machine Learning 服务来演示解决相同问题的备选方法。该学习路径说明了如何使用概要分析工具和 IBM Watson Studio 的仪表板来理解数据，以及如何使用优化工具来处理简单的数据准备和转换任务。

Data Science Methodology

IBM 定义了一种轻量级 IBM Cloud Garage 方法，它包括一个将各个技术组件映射到参考架构的流程模型。此方法不包括任何需求工程或设计思维任务。由于最初很难定义项目的架构，因此该方法支持在流程模型期间更改架构。

每个阶段在整个方法体系中都起着至关重要的作用。在某种抽象程度上，可以将它看作是 CRISP-DM 数据挖掘方法概述的工作流程的优化。

02.01-CRISP-DM-1

根据这两种方法，每个项目都以 业务理解 开始，其中定义了问题和目标。在 IBM Data Science Method 中，紧接着是 分析方法 阶段，数据科学家可以在此定义解决问题的方法。然后，IBM Data Science Method 会继续执行三个阶段： 数据需求、 数据收集 和 数据理解，而在 CRISP-DM 中，这三个阶段由单个 数据理解 阶段来表示。

数据科学家理解了数据并掌握足够的数据以着手处理之后，就会进入 数据准备 阶段。这个阶段通常十分耗时。数据科学家将大约 80% 的时间都用在此阶段上，执行数据清理和特征工程等任务。在这种情况下，经常会用到“数据整理”一词。在清理数据期间和之后，数据科学家通常会进行探索，例如，通过描述性统计获取对数据的总体认知，通过聚类查看数据的关系和潜在结构。这个过程通常会迭代几次，直到数据科学家对其数据集感到满意为止。

在模型训练阶段，机器学习用于构建预测模型。在对模型进行训练后，通过统计手段（例如预测准确性、敏感性和特异性）进行评估。在认为模型足以满足要求后，部署该模型，并将其用于对不可见数据进行评分。IBM Data Science Methodology 额外增加了一个反馈阶段，用于从模型使用中获取反馈，然后将其用于改进模型。这两种方法本质上都是高度迭代的。

在此学习路径中，我们将侧重于从数据理解开始的各个阶段，然后继续准备数据、构建模型、评估模型，接着再部署和测试模型。目的是开发模型来预测客户流失。有关分析流失原因以改善业务这些方面，不在本学习路径的范围之内。这意味着我们将使用各种分类模型，这些模型可以观察由一组特征定义的客户，并预测该特定客户是否有流失的风险。

IBM Watson Studio

我们在所有任务中都使用了 IBM Watson Studio。它为您提供了环境和工具，让您能够通过协同处理数据来解决业务问题。您可以选择所需的工具来分析数据并使之可视化，清理和塑造数据，摄取流式数据，或者创建、训练并部署机器学习模型。

02.2-Watson-Studio

利用 IBM Watson Studio，您可以：

创建项目来组织资源（例如数据连接、数据资产、合作者和 Notebook），进而实现分析目标。
通过指向云或本地数据源的连接访问数据。
上传文件到项目的对象存储中。
创建和维护数据目录以发现数据、建立索引和共享数据。
通过清理和塑造数据来优化数据以准备进行分析。
通过创建适用于 Python 或 Scala 的 Jupyter Notebook 来运行数据处理代码，然后查看内联结果，执行数据科学任务。您也可以使用 RStudio for R。
使用 Streams Designer 工具来摄取并分析流数据。
创建、测试和部署机器学习与 深度学习 模型。
通过训练深度学习模型来识别图像内容，从而对图像进行分类。
无需编码即可创建和共享数据可视化仪表板。

从技术上讲，IBM Watson Studio 基于各种开源技术和 IBM 产品，如下图所示。

02.3-Watson-Studio-Architecture

在数据科学的背景下，IBM Watson Studio 可以被视为一个集成的多角色协作平台，在解决数据科学问题的过程中为开发者、数据工程师、业务分析师和数据科学家提供支持。对于开发者角色，在构建使用机器学习服务的应用程序时，也可能会用到 IBM Cloud 平台的其他组件。而数据科学家则可以使用各种工具来构建机器学习模型，包括：

AutoAI Model Builder：无需编程技能的图形工具
SPSS Modeler 流：采用图解样式
Rstudio 和 Jupyter Notebooks：使用编程样式

除了这三个主要组件，您还可以使用：

IBM Cloud Object Storage：存储用于训练和测试模型的数据集
Data Refinery：转换数据集
Cognos 仪表板：生成可视化效果

有关其他背景，可查看可用于 IBM Watson Studio 的 “操作方法”视频的详尽列表。

IBM Watson Machine Learning 服务

IBM Watson Studio 的关键组件是 IBM Watson Machine Learning 服务及其 REST API 集，可以从任何编程语言调用这些 API，以便与机器学习模型进行交互。IBM Watson Machine Learning 服务的重点是部署，但是您可以使用 IBM SPSS Modeler 或 IBM Watson Studio 来编写和使用模型及管道。SPSS Modeler 和 IBM Watson Studio 均使用 Spark Mllib 和 Python scikit-learn，并提供从机器学习、人工智能和统计数据中获取的各种建模方法。

使用以下链接获取有关 Watson Machine Learning 的更详细信息：

结束语

本文提供了有关 IBM Data Science Methodology 的背景信息、IBM Watson Studio 可以发挥的作用，并预览了该学习路径中将涵盖的内容。

该学习路径的一个目标就是展示除了可用于 Python、Scala 或 R 的 Jupyter Notebook 外，IBM Watson Studio 如何提供备选方法通过类似的流程，这些方法可能速度更快，并且无需编程技能即可实现。本质上，这些机制包括 SPSS Modeler 流，它支持数据科学家以纯粹图形化的方式通过定义流来创建模型，同时还包括 IBM Watson Studio 中的 IBM AutoAI 图形工具，该工具通过提供半自动方法来创建、部署以及测试机器学习模型，比 SPSS 更进一步。与此同时，该学习路径还展示了 IBM Watson Studio 如何提供现成可用的数据概要分析、可视化和转换功能，同样也无需任何编程操作。

分享到QQ

分享到微博