4.1 数据挖掘简介
数据挖掘定义
(英语:Data mining)又译为数据采矿、数据挖掘。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD) 中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于 Association rule learning)的信息的过程。
发展历程
1989 年,第十一届国际联合人工智能学术会议上首次出现 KDD(知识发现)一词。这是关于 KDD 的首个专题讨论会
1995 年,出现数据挖掘领域的首个国际会议 SIGKDD.自此,SIGKDD 大会每年召开一次,已经称为数据挖掘领域的顶级会议.
4.1.1 基本概念
数据
- 数据:对象及属性的集合.
- 数据类型:分类,数值...
- 数据处理:标准化,离散化,取样,维度递减...
数据挖掘任务 :是指用户进行的数据分析形式。
- 分类/预测模型:利用已知参数,预测未知参数的值.
- 描述模型:发现人可以理解,可以描述数据的模术.
基本方法: 分类,聚类和关联分析.
数据挖掘功能(模式发现)
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。
常见的模式
- 概念/类描述: 特征化和区分
数据特征的输出可以用多种形式提供,如饼图,条图等。
数据区分是将目标类对象的一般特性与一个或多个类比对象的一般特性作比较。
- 关联分析
关联分析发现关联规则,规则展示属性-值频繁地给定数据集中一起出现的条件. 关联分析广泛用于购物篮或事务数据分析。
分类和预测
聚类分析
孤立点分析
演变分析
数据演变分析描述行为随时间变化的对象的规律或趋势。
数据挖掘原语
一个数据挖掘任务可以用数据挖掘查询的形式说明. 数据挖掘查询的形式即数据挖掘原语,有如下定义。
- 任务相关的数据,如数据库,表等
- 挖掘的知识类型,即模式
- 背景知识
- 模式兴趣度度量,简洁,实用,确实,新颖
- 发现模式的可视化,如表格,图等
4.1.2 CRISP-DM
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程"。此 KDD 过程模型 于 1999 年欧盟机构联合起草。通过近几年的发展,CRISP-DM 模型在各种 KDD 过程模型中占据领先位置,2014 年统计表明,采用量达到 43%。
CRISP-DM 模型为一个 KDD 工程提供了一个完整的过程描述。该模型将一个 KDD 工程分为 6 个不同的,但顺序并非完全不变的阶段,分别是商业理解、数据理解、数据准备、建模、评估和部署。
商业理解(business understanding)
从商业的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。
主要工作包括:确定商业目标,发现影响结果的重要因素,从商业角度描绘客户的首要目标,评估形势,查找所有的资源、局限、设想以及在确定数据分析目 标和项目方案时考虑到的各种其他的因素,包括风险和意外、相关术语、成本和收益等等,接下来确定数据挖掘的目标,制定项目计划。
数据理解(data understanding)
数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据的量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形 成对潜在信息的假设。收集原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计,检验数据的质量,包括数据的完整性和正确性,缺失 值的填补等。
数据准备(data preparation)
数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括:制表,记录,数据变量的选择和转换,以及为适应建模工具而进行的数据清理等等。
根据与挖掘目标的相关性,数据质量以及技术限制,选择作为分析使用的数据,并进一步对数据进行清理转换,构造衍生变量,整合数据,并根据工具的要求,格式化数据。
建模(modeling)
在这一阶段,各种各样的建模方法将被加以选择和使用,通过建造,评估模型将其参数将被校准为最为理想的值。比较典型的是,对于同一个数据挖掘的问题 类型,可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求,因 此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。
评估(evaluation)
从数据分析的角度考虑,在这一阶段中,已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中 所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了企业的目标。一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地 加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。
部署(deployment)
部署,即将其发现的结果以及过程组织成为可读文本形式。模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息,但这些信息仍然 需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某些决策过程中,如在决定有关网页的实时人员或者营销数据库的重复得分时,拥有一 个“活”的模型。
表格 4 数据挖掘处理过程(参考)
过程 | 简介 | 详述 |
---|---|---|
定义挖掘目标 | 明确本次的挖掘目标是什么?系统完成后要达到什么效果? | |
数据取样 | 从业务系统中抽取一个与挖掘目标相关的样本数据子集。 | 抽取数据标准要求相关、可靠和有效。 |
数据探索 | 分析数据属性之间的相关 | Ø 数据质量分析:异常值、缺失值、一致性 Ø 数据特征分析:分布、对比、统计量、相关性、周期性和贡献度。 |
数据预处理 | 当采集数据维度过大时,需要降维、缺失值处理等。 | Ø 数据筛选(清洗):异常值、缺失值 Ø 数据集成:实体识别、冗余属性识别 Ø 数据转换:简单函数变换、数据规范(标准)化、连续属性离散化、属性选择(构造)、小波变换 Ø 数据规约:属性规约(合并、决策树归纳、PCA 主成分分析),数值规约(回归、直方图、抽样等)。 |
挖掘建模 | 这是核心环节。 | 考虑 DM 中的哪类问题: 分类、聚类、关联规则、时序模式或智能推荐。 |
模型评价 | 根据分析结果找出一个好的模型,根据业务对模型进行解释和应用。 | |
模型发布 | 应用模型进行分析和预测。 |
事实上,就方法学而言,CRISP-DM 并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至 CRISP-DM 如今已经成为事实上的行业标准。
数据挖掘过程示例:餐饮业
图 9 餐饮行业数据挖掘建模过程示例图
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论