当前位置：文江博客话题详情

data-warehouse database datamart

如何验证数据集市中的数据是否正确？

发布于 2024-08-24 09:23:11 字数 261 浏览 7 评论 0原文

我正在开发一个数据仓库，我正在尝试找出如何最好地验证数据清理（标准化）数据库中的数据是否正确进入我们的数据集市。我已经做了一些搜索，但到目前为止的结果更多地讨论了确保诸如约束之类的事情到位，以及您需要在 ETL 过程中进行数据验证（例如日期有效等）。维度非常简单，因为我可以轻松地利用主键或编写一个非常简单且可验证的查询来获取数据。事实表更加复杂。

有什么想法吗？我们试图使主题导出变得非常容易，以运行几个查询，查看来自数据清理数据库和数据集市的一些数据，并直观地比较两者以确保它们是正确的。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

无声情话 2024-08-31 09:23:11

您可以通过在其他地方实现相同数据操作的简化、精简子集并比较结果来测试事实表负载。

您至少计算两次相同的总计、计数或其他数字。一次来自事实表本身，在完成加载后，一次来自某个其他源：

直接源数据，控制源和已知
源系统报告。
记录

之间的所有清理步骤如果您在数据库中执行此操作，则可以将每个测试编写为查询，如果一切正确，则不返回任何返回的任何记录都是例外：(y,z) 的 x 计数不匹配。

请参阅 ConcernedOfTunbridgeWells 发表的这篇精彩的帖子，了解更多建议。

回复收藏 0 原文

游魂 2024-08-31 09:23:11

尽管如果您进行大量清理或转换，它有一些缺点和潜在问题，但我发现您可以通过从星型模式重新生成输入文件来往返输入文件。然后简单地将输入文件与输出文件进行比较。可能需要一些按摩才能使它们匹配（一个是左填充，另一个是右填充）。

通常，我有一个程序，它使用与 ETL 相同的布局，并进行比较，忽略字段内的对齐。另外，文件可能需要排序 - 我使用了命令行排序。

如果您的 ETL 错误地进行了转换并且您错误地进行了转换，则此方法仍然有可能无法显示 DW 中的所有问题，并且我不会声称它具有完整的覆盖范围，但它是回归的一个非常好的第一击每个负载的单元测试。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

娇女薄笑

文章 0 评论 0

biaggi

文章 0 评论 0

xiaolangfanhua

文章 0 评论 0

rivulet

文章 0 评论 0

我三岁

文章 0 评论 0

薆情海

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文