文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
数据产品
数据产品的发展阶段 : 数据库 -> 数据仓库 --> 数据平台 --> 数据中台
数据价值:存储 -> 交易 -> 分析 -> 赋能。
数据产品有二个大的方向,一是按照数据仓库建模理论发展而来的数据湖(数据仓库/数据湖-->湖仓一体),如阿里的 Dataphin;二是大数据存储和计算,为 AI 服务的大数据产品,如阿里的 Dataworks。
数据
数据一般可分为主数据、元数据、参考数据。
- 元数据 :描述数据的数据。分技术、业务和操作元数据。用于描述企业数据的所有信息和数据,如结构、关系、安全需求等,除增加数据可读性外,也是后续数据管理的基础。
- 主数据 :具有高度业务价值,可以在企业内部跨流程跨系统重复使用的数据。具有唯一、准确和权威的数据源。真实的企业业务数据,是企业的关键业务数据。
- 参考数据 :对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。
备注:相对交易数据,主数据变换缓慢。
一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:
图 4 企业三类数据的关系
数据的分类
- 按数据格式:结构化、非结构化
- 按数据参照程度:主数据、非主数据
- 按数据采集频道:实时、非实时
- 按使用性质:分析性、共享
血缘分析
血缘分析,又叫血统分析、血缘关系等,是数据治理的重要功能之一,一般都放在数据地图/数据管理模块下。
血缘分析可解决问题是数据出了错之后能明确知道是哪一步环节的哪个原始数据出问题了。
血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯。
血缘分析就划分为表结构血缘分析和记录级的血缘分析。
- 表级:一个字段来自于多张表。从目标表的目标字段出发,知道数据库中数据处理的规则,清楚的了解每个字段数据的来源。
- 记录级:从当前记录出发可以按时间查看该记录所有的变更过程。
单击某一个字段,可查看该字段的血缘关系;一个是以此字段为目标的血缘追溯,一个是以此字段为源的血缘追溯。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论