为数据仓库设置 Dim 和 Fact 表

发布于 2024-07-12 00:37:45 字数 391 浏览 8 评论 0原文

我的任务是为客户创建一个数据仓库。所涉及的表格并没有真正遵循传统的示例（产品/订单），因此我需要一些帮助来入门。客户端本质上是案件的处理中心（类似于法律案件）。每天，新病例都会输入数据库的“病例”表下。每列都包含一些与案例相关的信息。在处理案例时，会使用与案例相关的事件填充其他一对多表。这些事件表有很多，示例表可能是：（case-open、case-dept1、case-dept2、case-dept3 等）。每个表都有一个 caseid，映射回“cases”表。还涉及一些查找表。

目前，报告需求涉及暴露各个阶段的瓶颈，并且对于流程的某些区域，粒度是小时级别。

我可能在这里要求太多，但我正在寻找一些关于如何设置我的 Dim 和 Fact 表的方向或您可能有的任何其他建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

羅雙樹 2024-07-19 00:37:45

事实表是案例事件，它是“无事实的”，因为它没有数值。维度可以是时间、事件类型、案例，也可能是其他一些维度，具体取决于系统中的其他数据。

您需要将事件表合并到一个事实表中，并标有“事件类型”维度。吞吐量/瓶颈报告正在计算给定情况下事件类型的特定组合的事件时间之间的差异。

报告应该计算事件-事件时间，并可能将它们放入直方图中。您还可以标记某些类型的事件组合并将标签应用于感兴趣的事件。然后可以针对这些事件记录时间，这样就可以使用 OLAP 工具对时间进行切片操作。

如果您想对生命周期进程中的某些阶段进行基准测试，您将有一个包含案例类型、事件类型 1、事件类型 2、基准时间的表。

通过一些操作，您也许能够使用数据挖掘工具包甚至简单的回归分析来发现案例属性和事件-事件时间 (YMMV) 之间的相关性。

回复收藏 0 原文

那小子欠揍 2024-07-19 00:37:45

我建议你看看 Kimball 的书，特别是这本书，其中应该有一些让您思考在您的问题领域中的应用的示例。

无论如何，您需要确定维度模型是否合适。很可能将 3NF 数据库“企业数据仓库”视为具有不同的索引或摘要等。

如果没有看到您当前的架构，真的很难说。听起来你最终会得到几个明星模型，并通过一些一致的尺寸将它们绑在一起。因此，您可能会将外壳尺寸作为您的一致尺寸之一。来自每个其他表的事实实际上是链接到一致维度和适合事实的任何其他维度的事实表，因此，例如，如果案例开放中有一个员工 ID，则它将链接到员工一致维度，来自案例开放事实表。这个一致的维度可能会与您的多个辅助事实表链接多次。

Kimball 的建模方法相当简单，可以像菜谱一样遵循。您需要首先识别所有事实，将它们分组到事实表中，识别每个事实表上的各个维度，然后根据需要将它们分组到维度表中，并识别每个维度的类型。

回复收藏 0 原文

苦行僧 2024-07-19 00:37:45

与开发的任何其他方面一样，您必须从最终需求（如果愿意，可以称为“用户故事”）向后处理问题。对于仓库来说，最保守的方法是简单地表示事务数据库的副本。从这里开始，在需求的指导下，可以进行某些优化来增强某些数据访问模式的性能。然而，我认为重要的是，将这些视为优化，而不是假设数据仓库自动必须是每个事实的每个可能维度的复杂爆炸。我的经验是，对于大多数用途，直接表示对于 90% 以上的分析查询来说就足够了，甚至是理想的。对于其余部分，首先考虑索引、索引视图、附加统计信息或可以在不影响结构的情况下进行的其他优化。然后，如果需要聚合或其他冗余结构来提高性能，请考虑将它们分离到“数据集市”（至少在概念上），该数据集市提供原始事实及其冗余之间的分离。最后，如果需求太不稳定并且聚合要求太高才能以这种方式有效运行，那么您可能会考虑数据的批发爆炸，即星型模式。不过，再次将其限制为尽可能小的数据横截面。

回复收藏 0 原文