当前位置：文江博客话题详情

tags MySQL database tagging denormalization

在标记博客文章时我真的应该使用关系表吗？

发布于 2024-07-12 08:09:16 字数 960 浏览 11 评论 0原文

在尝试弄清楚如何使用单个 sql 语句标记博客文章此处，我想到了以下想法：使用关系表 tag2post 通过 id 引用标签，如下所示是没有必要的：

tags
+-------+-----------+
| tagid | tag       |
+-------+-----------+
|     1 | news      | 
|     2 | top-story | 
+-------+-----------+

tag2post
+----+--------+-------+
| id | postid | tagid |     
+----+--------+-------+
|  0 |    322 |     1 |
+----+--------+-------+

为什么不只需使用以下模型，在其中索引标签本身如下？考虑到标签永远不会重命名，而是添加和删除，这可能是有道理的，对吧？你怎么认为？

tag2post
+----+--------+-------+
| id | postid | tag   |     
+----+--------+-------+
|  1 |    322 | sun   |
+----+--------+-------+
|  2 |    322 | moon  |
+----+--------+-------+
|  3 |   4443 | sun   |
+----+--------+-------+
|  4 |   2567 | love  |
+----+--------+-------+

PS：我保留了一个id，我是为了轻松显示最后添加的n个标签...

while trying to figure out how to tag a blog post with a single sql statement here, the following thought crossed my mind: using a relation table tag2post that references tags by id as follows just isn't necessary:

tags
+-------+-----------+
| tagid | tag       |
+-------+-----------+
|     1 | news      | 
|     2 | top-story | 
+-------+-----------+

tag2post
+----+--------+-------+
| id | postid | tagid |     
+----+--------+-------+
|  0 |    322 |     1 |
+----+--------+-------+

why not just using the following model, where you index the tag itself as follows? taken that tags are never renamed, but added and removed, this could make sense, right? what do you think?

tag2post
+----+--------+-------+
| id | postid | tag   |     
+----+--------+-------+
|  1 |    322 | sun   |
+----+--------+-------+
|  2 |    322 | moon  |
+----+--------+-------+
|  3 |   4443 | sun   |
+----+--------+-------+
|  4 |   2567 | love  |
+----+--------+-------+

PS: i keep an id, i order to easily display the last n tags added...

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

第几種人 2024-07-19 08:09:16

它有效，但没有标准化，因为标签中有冗余。您还无法使用“相同”标签来标记帖子以外的内容。对于小N来说，优化并不重要，所以我用它跑就没问题。

实际上，您的索引会更大（假设您要在标签上建立索引以进行搜索，您现在正在对重复项和字符串进行索引）。在规范化版本中，tags表上的索引会更小，不会有重复，tag2post表上tagid上的索引也会更小。此外，固定大小的 int 列对于索引非常有效，并且根据您的集群选择，您还可以避免一些碎片。

我知道您说过不重命名，但一般来说，在这两种情况下，您可能仍然需要考虑重命名（甚至删除）标签意味着什么的语义 - 是否所有条目都需要更改，或者标签是否需要更改以某种方式分裂。因为这是最坏情况下事务中的批量操作（所有 tag2post 都必须重命名），所以从设计角度来看，我并没有真正将其归类为重要的。

回复收藏 0 原文

梦中楼上月下 2024-07-19 08:09:16

这对我来说听起来不错，当您有不同的内容（例如用户名或其他内容）时，使用 ID 来引用委托给另一个表的内容是有意义的，因为您不想在数据库中的每个位置更改它的名称当他改变它的时候。然而，在这种情况下，标签名称本身不会变化，因此我看到的唯一潜在缺点是文本索引的搜索速度可能比数字索引稍慢。

回复收藏 0 原文

银河中√捞星星 2024-07-19 08:09:16

与包含 ID 的关系表相比，您的提案的真正优势在哪里？

从技术上讲，它们解决了相同的问题，但您提出的解决方案以冗余的、非规范化的方式实现，这似乎只能满足能够直接从关系表读取数据的本能冲动。

数据库服务器非常擅长连接表，如果连接是通过带有索引的 INT 字段进行的，则更是如此。我认为当您将另一个表（例如：INT id, VARCHAR(50) TagName）加入查询时，您不会遇到毁灭性的性能问题。

但是您失去了轻松重命名标签的能力（即使您不打算这样做），并且不必要地用冗余数据膨胀了关系表。随着时间的推移，这可能会比标准化解决方案花费更多的性能。

回复收藏 0 原文

好听的两个字的网名 2024-07-19 08:09:16

根据您的应用程序，非标准化方法可能会很好。
您可能会发现，由于搜索大量 VARCHAR 数据，它会导致性能下降。

当搜索标记为“sun*”（例如太阳、阳光明媚、日出）的内容时
您不需要进行连接。但是，您需要对更大的 VARCHAR 数据集进行类似比较。正确的索引可以缓解这个问题，但只有测试才能告诉您哪种方法对您的数据集更快。

您还可以选择添加预连接规范化表的 VIEW。这为您提供了更简单的查询，同时仍然允许您拥有高度规范化的数据。

我的建议是采用规范化结构（并添加非规范化视图，以方便使用），直到遇到非规范化数据模式修复的问题。

回复收藏 0 原文

笔落惊风雨 2024-07-19 08:09:16

我也在考虑这一点。想要数据库中的标签列表，只需从 tag2post 中选择不同的标签即可。有人告诉我，由于我想优化 select 语句，因此最好使用整数键，因为它比使用字符串快得多。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文