用户请求非规范化数据库

发布于 2024-08-11 23:00:42 字数 268 浏览 6 评论 0原文

我正处于开发数据库驱动系统的早期阶段，系统的最大部分围绕继承类型的关系。有一个大约有 10 列的父实体，并且将有大约 10 个从父实体继承的子实体。每个子实体将有大约 10 列。我认为为父实体提供自己的表并为每个子实体提供自己的表 - 每个子类一个表的结构是有意义的。

今天，我的用户要求查看我创建的系统的结构。他们对每个子类一个表的结构的想法犹豫不决。他们更喜欢一张大约 100 列的大表，因为这样他们可以更轻松地执行自己的自定义查询。

为了用户的利益，我应该考虑对数据库进行非规范化吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

拥抱没勇气 2024-08-18 23:00:42

绝对不是。您以后随时可以创建视图来向他们展示他们想要查看的内容。

回复收藏 0 原文

白衬杉格子梦 2024-08-18 23:00:42

他们实际上是在要求一份报告。

您可以授予他们访问包含他们需要的所有字段的视图的权限...这样您就不会弄乱您的数据模型。

回复收藏 0 原文

看海 2024-08-18 23:00:42

不会。正确构建数据，如果用户需要数据的非规范化视图，请将其创建为数据库中的视图。

或者，考虑一下 RDBMS 可能不是适合该项目的存储工具。

回复收藏 0 原文

那些过往 2024-08-18 23:00:42

出于某种原因，他们是系统的用户而不是程序员。为他们的查询提供单独的界面。像这样的高级用户可能会很有帮助，但处理起来却很痛苦。只需解释一下您需要以某种方式设计数据库，以便您可以完成您的工作，就这样。一旦完成，您就可以提供其他方法来使查询更容易。

回复收藏 0 原文

梦回梦里 2024-08-18 23:00:42

他们知道什么！？您可能会说，用户一开始就不应该直接访问数据库。

这样做会让您面临巨大的性能问题，仅仅因为几个用户正在运行荒谬的查询。

回复收藏 0 原文

一影成城 2024-08-18 23:00:42

如果您以用户想要的格式创建了 VIEW，同时仍然维护正确规范化的表，会怎么样？

回复收藏 0 原文

永言不败 2024-08-18 23:00:42

除了支持或反对用户主张的许多技术原因之外，您还需要在沟通各种场景的后果以及（更重要的是）这些后果的成本时保持一致。如果用户是您的客户并且他们付钱让您做某项工作，请解释他们“提出的”想法可能会花费他们更多的钱，包括开发时间、额外的硬件资源等。

希望您能解释一下以这样的方式展示您的专业知识以及为什么您的想法从长远来看对您的用户具有更好的价值。

回复收藏 0 原文

清晰传感 2024-08-18 23:00:42

正如每个人或多或少提到的那样，这种方式就是疯狂，而你总是可以建立一个视图。

如果你无法让他们接受这一点，请考虑向他们展示这条线索，以及那些权衡过用户正在干预他们不完全理解的事情的专业人士的数量，其影响将是基础被破坏。

开发人员技巧的一个重要部分是对长期无法解决的问题的感觉，并且规范化规则在这方面几乎是规范的。在某些情况下，您需要非规范化（数据仓库等），但这听起来不像其中之一！

听起来好像你手头上可能有一个特别令人不安的用户——那些业余开发人员，他们认为只要有时间，他们自己就能更好地完成你的工作。这可能有帮助，也可能没有帮助，但我发现这些类型的人对演讲的反应很好——现在有几次我发现，如果我穿着得体，在我的个性中表现出一点力量，这会让他们感觉像我是专家，可以在很多问题发生之前就预防它们。

回复收藏 0 原文

可是我不能没有你 2024-08-18 23:00:42

我强烈建议提出一个不涉及对您的数据库运行直接报告的答案。当这种情况发生时，您的数据库结构就已经确定，您基本上可以将其视为遗产。

视图是一个好的开始，但稍后您可能希望将其构造为导出，以进一步解耦。当然，然后您会遇到想要“实时”数据的人。正确的业务分析通常表明这是不必要的。实际的实时要求并不能通过报告系统得到最好的处理。

需要明确的是：我个人更喜欢每个子类的表方法，但我认为这实际上并不像直接报告事务表那样是一个大问题。

回复收藏 0 原文

趁年轻赶紧闹 2024-08-18 23:00:42

我会选择视图（正如其他人所建议的那样）或内联表值函数（这样做的好处是您需要参数 - 例如日期范围或客户帐户 - 这可以帮助阻止用户查询而没有任何限制问题空间）首先。内联 TVF 实际上是一个参数化视图，并且在引擎如何处理它们方面更接近于视图，而不是多语句表值函数或标量函数，后者的性能可能非常差。

但是，在某些情况下，如果视图复杂或密集，这可能会影响生产性能。如果临时用户查询编写得不好，与构建得更好的查询相比，它还可能导致锁定持续时间更长或升级得更远。在存在多对一或多对多关系的情况下，用户也可能会误解 ER 数据模型并产生相乘的数字。下一个选择可能是用索引来具体化这些视图或制作表并保持更新，这让我们更接近我的下一个选择...

所以，考虑到视图选项的这些缺点，并且已经考虑通过开始制作副本来缓解它对于数据，我考虑的下一个选择是拥有一个单独的只读（对于这些用户）数据版本，其结构不同。通常，我会首先查看 Kimball 式星型模式。您不需要拥有成熟的时间一致的数据仓库。当然，这是一种选择，但您可以简单地使报告模型保持最新的数据。星型模式是非规范化的一种特殊形式，特别适合数字报告，并且给定的星型不应该被用户意外滥用。您可以通过多种方式使 star 保持最新状态，包括触发器、计划作业等。它们可以非常快地满足报告需求，并在同一生产安装上运行 - 如果不仅仅是单独的数据库，也可能在单独的实例上运行。

尽管这样的解决方案可能要求您有效地将存储需求增加一倍以上，但与其他实践相比，如果您很好地了解您的数据并且不介意有两个模型（一个用于事务，一个用于分析），那么它可能是一个非常好的选择（请注意，无论如何，通过使用最简单的第一个视图选项，您已经开始进行这种逻辑分离）。

一些架构师通常会将其服务器加倍，并使用具有某种复制的相同模型，以便提供索引更重或不同的报告服务器。这样的第二个服务器不会影响具有报告要求的生产事务，并且可以相当容易地保持最新状态。只会有一种模型，但是当然，这与仅允许用户临时访问底层模型具有相同的可用性问题，而不会影响性能，因为他们有自己的游乐场。

有很多方法可以给这些猫剥皮。祝你好运。

I would opt for a view (as others have suggested) or an inline table-valued function (the benefits of this is you require parameters - like an date range or a customer account - which can help to stop users from querying without any limits on the problem space) first. An inline TVF is really a parametrized view and is far closer to a view in terms of how the engine treats them than it is to a multi-statement table valued function or a scalar function, which can perform incredibly poorly.

However, in some cases, this can impact production performance if the view is complex or intensive. With poorly written ad hoc user queries, it can also cause locks to persist longer or be escalated further than they would on a better built query. It is also possible for users to misinterpret an E-R data model and produce multiplied numbers in cases where there are many-to-one or many-to-many relationships. The next option might be to materialize these views with indexes or make tables and keep them updated, which gets us closer to my next option...

So, given those drawbacks of the view option and already thinking of mitigating it by starting to make copies of data, the next option I would consider is to have a separate read-only (for these users) version of the data which is structured differently. Typically, I would first look at a Kimball-style star schema. You do not need to have a full-fledged time-consistent data warehouse. Of course, that's an option, but you could simply keep a reporting model up to date with data. Star-schemas are a special form of denormalization and are particularly good for numerical reporting, and a given star should not be able to be abused by users accidentally. You can keep the star up to date in a number of ways, including triggers, scheduled jobs, etc. They can be very fast for reporting needs and run on the same production installation - perhaps on a separate instance if not just a separate database.

Although such a solution may require you to effectively more than double your storage requirements, when compared with other practices it might be a really good option if you understand your data well and don't mind having two models - one for transactions and one for analysis (note that you will already start to have this logical separation anyway with the use of a the simplest first option of view).

Some architects will often double their servers and use the SAME model with some kind of replication in order to provide a reporting server which is indexed more heavily or differently. Such a second server doesn't impact production transactions with reporting requirements and can be kept up to date fairly easily. There will only be one model, but of course, this has the same usability problems with allowing users ad hoc access to the underlying model only, without the performance affects, since they get their own playground.

There are a lot of ways to skin these cats. Good luck.

回复收藏 0 原文

飘然心甜 2024-08-18 23:00:42

顾客永远是对的。但是，当您将客户的需求转换为美元和美分时，客户可能会做出让步。 100 列的表将需要额外的开发时间来编写代码来执行数据库通过正确实现自动执行的操作。此外，他们的支持成本将会更高，因为更多的代码意味着更多的问题和更低的调试难度。

回复收藏 0 原文

陌伤ぢ 2024-08-18 23:00:42

我将在这里唱反调，并说这两种解决方案听起来都像是实际数据的糟糕近似值。面向对象的编程语言不倾向于使用这两种数据模型来实现是有原因的，这并不是因为 Codd 1970 年关于关系的想法是存储和查询面向对象数据结构的理想系统。 :-)

请记住，SQL 最初被设计为一种用户界面语言（这就是为什么它看起来有点像英语，而完全不像那个时代的其他语言：Algol、C、APL、Prolog）。我听说现在不向用户公开 SQL 数据库的唯一原因是安全性（他们可能会关闭服务器！）和可用性（当你可以点击点击时谁愿意编写 SQL？），但是如果这是他们的服务器并且他们想要，那为什么不让他们呢？

考虑到“系统的最大部分围绕继承类型的关系”，那么我会认真考虑一个可以让我本地表示这一点的数据库，Postgres（如果 SQL 很重要）或本机对象数据库（如果您不需要 SQL 兼容性，那么使用起来非常棒）。

最后，请记住，每个工程决策都是一种权衡。通过“坚持你的立场”（正如其他人提议的那样），你隐含地表示用户愿望的价值为零。不要向 SO 询问正确答案，因为我们不知道您的用户想要如何处理您的数据（甚至不知道您的数据是什么，或者您的用户是谁）。告诉他们为什么你想要一个多表解决方案，然后与他们一起制定一个你们都能接受的解决方案。

回复收藏 0 原文