用于设计非常大的低粒度数据库的提示/链接/书籍？

发布于 2024-12-01 22:06:44 字数 1040 浏览 4 评论 0原文

我公司的 SAS 程序员与研究人员合作，分析存储在许多大小约为 1Tb 的文本文件中的数据。生成的 SAS 流程可能需要数天才能运行。每当研究人员想要稍微改变一个问题时，就必须重新运行该过程，这需要更多的时间或几天的时间。

SAS 程序员向我们的 DBA 团队寻求一种存储数据的方法，目的是大大提高查询性能。

两个主要困难是：

我们只有少数示例查询，并且没有特别典型的查询集。
许多查询的形式如下
选择计数（不同的 ID）从表 t 其中 a = true 且 b = 3 AND c IN (3 to 10);

但其中 WHERE 过滤器参数未知，并且可以包含列和属性的任意组合。这就是说，在我看来（阅读了一些有关数据仓库的内容），我们的要求排除了典型的数据仓库方法，在该方法中我们执行一些聚合并使用更高粒度的记录。

我正在寻找任何涉及设计具有类似约束的数据库的资源。在 Bill Inmon 的构建数据仓库中，他简要提到了“探索仓库”和“数据挖掘仓库”。使用这些术语，我发现这篇文章稍微有帮助：“设计数据仓库以进行有效的数据挖掘”[pdf]，但或多或少就是这样。我在搜索“数据挖掘”时发现的大部分内容都与 OLAP 有关。

我是一名新手 DBA，我的任务是为此设计提出一些建议。我认为此时我最有帮助的建议是建议我们设计时尽可能避免昂贵的连接。我在这里陷入了困境——不期待奇迹，但任何明智的建议或阅读推荐都会非常受欢迎。

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

べ映画 2024-12-08 22:06:44

阅读拉尔夫·金博尔 (Ralph Kimball) 所著的所有内容。

http://www.amazon.com/Data-Warehouse-Toolkit-Complete-Dimensional/ dp/0471200247

您的典型查询（SELECTaggregate FROMfactJOINdimensionWHERE criteria）是明星的最佳选择架构。

忘记“数据挖掘”。这不是一个有用的术语。

重点关注“星型模式”。构建正确的数据结构。

回复收藏 0 原文

橘虞初梦 2024-12-08 22:06:44

我想发表评论以获得更多澄清，但似乎我还不能！
比如...

读取文本文件需要多长时间？
是否可以发送增量文本文件并
维护一堆 SAS 数据集，您可以在其中附加增量
数据？

这里有一些建议...

如果资金不是问题，那么切换到像 Netezza 这样的后端 DBMS 将有助于解决这个问题。

一种更简单的方法可能是将数据拆分为更小的数据集，然后更改查询以动态查看正确的数据集。例如，如果所有查询都查看 A 变量为 true 或 false，并且 true 或 false 大约为 50/50，则此处将数据拆分为两个数据集可能会将给定示例的查询时间减半。这种方法的唯一问题是它实际上取决于找到最佳分割来容纳所有查询类型。

索引也可能有助于加快速度。您需要分析哪些变量将成为索引的候选变量。

如果您需要更多信息，请告诉我。

谢谢，
中号