当前位置：文江博客话题详情

SQL 连接与单表：性能差异？

发布于 2024-07-13 06:08:05 字数 79 浏览 6 评论 0原文

我试图坚持保持数据库规范化的做法，但这导致需要运行多个联接查询。如果许多查询使用联接而不是调用可能包含冗余数据的单个表，是否会导致性能下降？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

可爱咩 2024-07-20 06:08:05

保持数据库标准化，直到发现瓶颈。然后只有在仔细分析之后才可以进行非规范化。

在大多数情况下，拥有良好的索引覆盖集和最新的统计数据将解决大多数性能和阻塞问题，而无需任何非规范化。

如果对单个表进行写入和读取，则使用单个表可能会导致性能下降。

回复收藏 0 原文

娇纵 2024-07-20 06:08:05

迈克尔·杰克逊（不是那个）众所周知曾说过、

程序优化第一条规则：不要这样做。
程序优化的第二条规则 – 仅供专家使用：先不要这样做。

那可能是在 RDBMS 出现之前，但我认为他会扩展规则以将它们包括在内。

规范化数据模型几乎总是需要多表 SELECT；正如此类问题的常见情况，“非规范化”的“正确”答案是什么？问题取决于几个因素。

数据库管理系统平台。

多表查询与单表查询的相对性能受到应用程序所在平台的影响：查询优化器的复杂程度可能会有所不同。例如，根据我的经验，MySQL 在单表查询上速度快得惊人，但在优化多连接查询时却表现不佳。对于较小的表（例如，少于 10K 行），这不是一个真正的问题，但对于大型表（10M+）来说，这确实是个问题。

数据量

除非您正在查看 100K+ 行区域中的表，否则几乎不应该有问题。如果您正在查看数百行的表大小，我什至不会费心考虑索引。

（反）规范化规范化

的全部目的是尽量减少重复，尽量确保任何必须更新的字段值只需要在一个地方进行更改。非规范化打破了这一点，如果重复数据的更新很少（理想情况下它们永远不应该发生），那么这并不是什么大问题。因此，在复制除最静态数据之外的任何内容之前，请务必仔细考虑，请注意，您的数据库可能会显着增长。

要求/限制

您想要满足哪些性能要求？您有固定的硬件或预算吗？有时，通过硬件升级可以最轻松、甚至最便宜地实现性能提升。您预计交易量是多少？小企业会计系统的概况与 Twitter 等系统截然不同。

最后一个想法让我震惊：如果你足够非规范化，你的数据库与平面文件有什么不同？ SQL 非常适合灵活的数据和多维检索，但它可能比直接顺序或相当简单的索引文件慢一个数量级（至少）。

Michael Jackson (not that one) is famously believed to have said,

The First Rule of Program Optimization: Don't do it.
The Second Rule of Program Optimization – For experts only: Don't do it yet.

That was probably before RDBMSs were around, but I think he'd have extended the Rules to include them.

Multi-table SELECTs are almost always needed with a normalised data model; as is often the case with this kind of question, the "correct" answer to the "denormalise?" question depends on several factors.

DBMS platform.

The relative performance of multi- vs single-table queries is influenced by the platform on which your application lives: the level of sophistication of the query optimisers can vary. MySQL, for example, in my experience, is screamingly fast on single-table queries but doesn't optimise queries with multiple joins so well. This isn't a real issue with smaller tables (less than 10K rows, say) but really hurts with large (10M+) ones.

Data volume

Unless you're looking at tables in the 100K+ row region, there pretty much shouldn't be a problem. If you're looking at table sizes in the hundreds of rows, I wouldn't even bother thinking about indexing.

(De-)normalisation

The whole point of normalisation is to minimise duplication, to try to ensure that any field value that must be updated need only be changed in one place. Denormalisation breaks that, which isn't much of a problem if updates to the duplicated data are rare (ideally they should never occur). So think very carefully before duplicating anything but the most static data, Note that your database may grow significantly

Requirements/Constraints

What performance requirements are you trying to meet? Do you have fixed hardware or a budget? Sometimes a performance boost can be most easily - and even most cheaply - achieved by a hardware upgrade. What transaction volumes are you expecting? A small-business accounting system has a very different profile to, say, Twitter.

One last thought strikes me: if you denormalise enough, how is your database different from a flat file? SQL is superb for flexible data and multi-dimensional retieval, but it can be an order of magnitude (at least) slower than a straight sequential or fairly simply indexed file.

回复收藏 0 原文

恬淡成诗 2024-07-20 06:08:05

我们将查询优化留给数据库，其原因与我们将代码优化留给编译器的原因相同。

如今，大多数现代 RDBMS 在这方面都表现得相当好。

在您认为非规范化在某些情况下“可以”之前，请考虑一下：通常您并不对每个属性都感兴趣。因此，从磁盘加载不需要的数据效率很低（通常是数据库效率最低的组件）。如果您采用非规范化设计且连续存在大量冗余数据，情况可能会更糟。如果您必须更新所有冗余数据，情况会更糟。加载一些仅包含感兴趣的列的窄表并将它们连接起来会更有效。同样，这取决于数据库，因此如果没有分析，您就没有任何线索。

如果您真的担心性能，那么您可能正在谈论可扩展性问题。在这种情况下，您可能需要查看分片，其中正确的（标准化）架构设计很重要。

回复收藏 0 原文

骄傲 2024-07-20 06:08:05

性能差异？

理智差异。

回复收藏 0 原文

旧城烟雨 2024-07-20 06:08:05

为了标准化而分解表是有成本的。该成本包含性能部分。通过以下方式可以将分解表和连接查询中的数据的性能成本保持在较低水平：使用良好的 DBMS；正确设计表格；正确设计索引；让优化器完成它的工作；并调整物理设计的 DBMS 特定功能。

构建实现连接的大型表也是有成本的。关于标准化的优秀教程概述了更新异常和编程困难方面的成本。组合表也会带来性能成本。在许多 DBMS 产品中，将非常大的行加载到内存中比加载较小的行花费更多。当您编写非常宽的表时，最终会迫使 DBMS 读取非常大的行，而只会丢弃读入内存的大部分数据。这比标准化更能减慢你的速度。

一般来说，不要随意进行反规范化。必要时，请使用经过前人测试过的设计规则，即使该规则会导致一些非规范化。我推荐星型模式作为这样的学科。它有很多好处。在很多情况下，标准化设计比星型模式设计效果更好。

学习多套设计原则以及何时使用哪套设计原则是学习成为专家的第二阶段。

回复收藏 0 原文