返回介绍

数据产品

发布于 2024-09-24 23:11:16 字数 1270 浏览 0 评论 0 收藏 0

数据产品的发展阶段 : 数据库 -> 数据仓库 --> 数据平台 --> 数据中台

数据价值:存储 -> 交易 -> 分析 -> 赋能。

数据产品有二个大的方向,一是按照数据仓库建模理论发展而来的数据湖(数据仓库/数据湖-->湖仓一体),如阿里的 Dataphin;二是大数据存储和计算,为 AI 服务的大数据产品,如阿里的 Dataworks。

数据

数据一般可分为主数据、元数据、参考数据。

  • 元数据 :描述数据的数据。分技术、业务和操作元数据。用于描述企业数据的所有信息和数据,如结构、关系、安全需求等,除增加数据可读性外,也是后续数据管理的基础。
  • 主数据 :具有高度业务价值,可以在企业内部跨流程跨系统重复使用的数据。具有唯一、准确和权威的数据源。真实的企业业务数据,是企业的关键业务数据。
  • 参考数据 :对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

备注:相对交易数据,主数据变换缓慢。

一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:

image-20191201171315925

图 4 企业三类数据的关系

数据的分类

  • 按数据格式:结构化、非结构化
  • 按数据参照程度:主数据、非主数据
  • 按数据采集频道:实时、非实时
  • 按使用性质:分析性、共享

血缘分析

血缘分析,又叫血统分析、血缘关系等,是数据治理的重要功能之一,一般都放在数据地图/数据管理模块下。

血缘分析可解决问题是数据出了错之后能明确知道是哪一步环节的哪个原始数据出问题了。

血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯。

血缘分析就划分为表结构血缘分析和记录级的血缘分析。

  • 表级:一个字段来自于多张表。从目标表的目标字段出发,知道数据库中数据处理的规则,清楚的了解每个字段数据的来源。
  • 记录级:从当前记录出发可以按时间查看该记录所有的变更过程。

单击某一个字段,可查看该字段的血缘关系;一个是以此字段为目标的血缘追溯,一个是以此字段为源的血缘追溯。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文