数据仓库性能差异非规范化时间

发布于 2024-10-20 16:36:01 字数 200 浏览 1 评论 0原文

我在书中读到，如果将时间分成单独的列，那么它是真正的性能提升器。例如日、月、年等等...

数据库是否已经有了一些智能方法来处理时间列上的索引，因此分割时间并添加数百万个索引变体已经过时了？
有性能差异方面的经验吗？

可能的查询是周一上午 13:00-14:00 之间的销售情况。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦初启 2024-10-27 16:36:02

您概述的具体场景（每周一 13:00-14:00）无法通过针对日期时间数据的普通索引正确满足。

需要将日期时间数据分解为星期几+时间部分才能获取该信息。对于这种情况，将其分成一周中的某一天和一天中的时间（小时）的另一列会更好，并且可以单独索引或作为复合索引（跨两者）。

性能非常不同 - 查询不是使用星期几 + 一天中的时间索引来查看 1/168 的数据（理论平均值）或更实际的大约 1/50 的数据（工作时间）否则必须运行 2 个转换（以获取星期几 + 一天中的时间组件），然后通过过滤器运行它。

回复收藏 0 原文

海夕 2024-10-27 16:36:02

在许多星型模式中，具有时间维度是有用的。在该维度表中，明确列出星期几、月份等可能会很有用。其中许多属性可以通过 SQL 方言中的内置函数来访问。而且，使用这些函数所需的磁盘 I/O 比具体化此数据所需的磁盘 I/O 更少。但如果日历函数看起来像数据，那么在给定时间片上编写报告的艺术就会变得更加容易。

这真正有用的是，您的企业有一个特殊的“公司日历”，其中日期可以属于称为“财政季度”的单位，这些单位不容易映射到日-月-年。如果将所有日历怪癖放入一个生成时间维度表的程序中，它可以使仓库代码的其余部分变得更加干净。

与任何维度表一样，正确设置粒度非常重要。如果您每天只需要一行，则只需 3,650 多行即可存储十年的日期，按照今天的标准来看，这只是一个很小的表。在某些情况下，“轮班”（8 小时）被证明是正确的粒度。这取决于数据的用途。

无论走哪条路，在建仓时都要做好数据经历“蜕变”的准备，在面对意外需求时要做好接受“考验”的准备。

回复收藏 0 原文