4.2 数据集成

发布于 2024-01-28 21:41:24 字数 709 浏览 0 评论 0 收藏 0

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。

在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，有可能不匹配，要考虑实体识别问题和属性冗余问题，从而将源数据在最低层上加以转换、提炼和集成。

4.2.1　实体识别

实体识别是指从不同数据源识别出现实世界的实体，它的任务是统一不同源数据的矛盾之处，常见形式如下。

（1）同名异义

数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。

（2）异名同义

数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期的，即A.sales_dt=B.sales_date。

（3）单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

数据集成往往导致数据冗余，例如，

1）同一属性多次出现；

2）同一属性命名不一致导致重复。

仔细整合不同源数据能减少甚至避免数据冗余与不一致，从而提高数据挖掘的速度和质量。对于冗余属性要先分析，检测到后再将其删除。

有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B，根据其属性值，用相关系数度量一个属性在多大程度上蕴含另一个属性，相关系数介绍见3.2.6节。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据