数据库设计和非数字主键的使用

发布于 2024-07-23 12:40:15 字数 1992 浏览 11 评论 0原文

我目前正在为客户和客户设计数据库表。网站管理应用程序。我的问题是关于使用主键作为表的功能部分（而不是仅仅因为为每个表分配“ID”号）。

例如，到目前为止，这是数据库中的四个相关表，其中一个使用传统的主键编号，其他表使用唯一名称作为主键：

--
-- website
--
CREATE TABLE IF NOT EXISTS `website` (
  `name` varchar(126) NOT NULL,
  `client_id` int(11) NOT NULL,
  `date_created` timestamp NOT NULL default CURRENT_TIMESTAMP,
  `notes` text NOT NULL,
  `website_status` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`),
  KEY `client_id` (`client_id`),
  KEY `website_status` (`website_status`),
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

--
-- website_status
--
CREATE TABLE IF NOT EXISTS `website_status` (
  `name` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
INSERT INTO `website_status` (`name`) VALUES
('demo'),
('disabled'),
('live'),
('purchased'),
('transfered');

--
-- client
--
CREATE TABLE IF NOT EXISTS `client` (
  `id` int(11) NOT NULL auto_increment,
  `date_created` timestamp NOT NULL default CURRENT_TIMESTAMP,
  `client_status` varchar(26) NOT NULL,
  `firstname` varchar(26) NOT NULL,
  `lastname` varchar(46) NOT NULL,
  `address` varchar(78) NOT NULL,
  `city` varchar(56) NOT NULL,
  `state` varchar(2) NOT NULL,
  `zip` int(11) NOT NULL,
  `country` varchar(3) NOT NULL,
  `phone` text NOT NULL,
  `email` varchar(78) NOT NULL,
  `notes` text NOT NULL,
  PRIMARY KEY  (`id`),
  KEY `client_status` (`client_status`)
) ENGINE=InnoDB  DEFAULT CHARSET=latin1 AUTO_INCREMENT=4 ;

--
-- client_status
---
CREATE TABLE IF NOT EXISTS `client_status` (
  `name` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

INSERT INTO `client_status` (`name`) VALUES
('affiliate'),
('customer'),
('demo'),
('disabled'),
('reseller');

如您所见，4 个表中有 3 个使用其“名称”作为主键。我知道这些永远是独一无二的。在其中 2 种情况（ *_status 表）中，我基本上使用 ENUM 的动态替换，因为状态选项将来可能会发生变化，对于“网站”表，我知道网站的“名称”将始终是独一无二的。

我想知道这是否是合理的逻辑，当我知道名称始终是唯一标识符时摆脱表 ID，或者是灾难的根源？我不是一位经验丰富的 DBA，因此任何反馈、批评等都会非常有帮助。

感谢您抽时间阅读！

原文

I'm currently in the process of designing the database tables for a customer & website management application. My question is in regards to the use of primary keys as functional parts of a table (and not assigning "ID" numbers to every table just because).

For example, here are four related tables from the database so far, one of which uses the traditional primary key number, the others which use unique names as the primary key:

--
-- website
--
CREATE TABLE IF NOT EXISTS `website` (
  `name` varchar(126) NOT NULL,
  `client_id` int(11) NOT NULL,
  `date_created` timestamp NOT NULL default CURRENT_TIMESTAMP,
  `notes` text NOT NULL,
  `website_status` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`),
  KEY `client_id` (`client_id`),
  KEY `website_status` (`website_status`),
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

--
-- website_status
--
CREATE TABLE IF NOT EXISTS `website_status` (
  `name` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
INSERT INTO `website_status` (`name`) VALUES
('demo'),
('disabled'),
('live'),
('purchased'),
('transfered');

--
-- client
--
CREATE TABLE IF NOT EXISTS `client` (
  `id` int(11) NOT NULL auto_increment,
  `date_created` timestamp NOT NULL default CURRENT_TIMESTAMP,
  `client_status` varchar(26) NOT NULL,
  `firstname` varchar(26) NOT NULL,
  `lastname` varchar(46) NOT NULL,
  `address` varchar(78) NOT NULL,
  `city` varchar(56) NOT NULL,
  `state` varchar(2) NOT NULL,
  `zip` int(11) NOT NULL,
  `country` varchar(3) NOT NULL,
  `phone` text NOT NULL,
  `email` varchar(78) NOT NULL,
  `notes` text NOT NULL,
  PRIMARY KEY  (`id`),
  KEY `client_status` (`client_status`)
) ENGINE=InnoDB  DEFAULT CHARSET=latin1 AUTO_INCREMENT=4 ;

--
-- client_status
---
CREATE TABLE IF NOT EXISTS `client_status` (
  `name` varchar(26) NOT NULL,
  PRIMARY KEY  (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

INSERT INTO `client_status` (`name`) VALUES
('affiliate'),
('customer'),
('demo'),
('disabled'),
('reseller');

As you can see, 3 of the 4 tables use their 'name' as the primary key. I know that these will always be unique. In 2 of the cases (the *_status tables) I am basically using a dynamic replacement for ENUM, since status options could change in the future, and for the 'website' table, I know that the 'name' of the website will always be unique.

I'm wondering if this is sound logic, getting rid of table ID's when I know the name is always going to be a unique identifier, or a recipe for disaster? I'm not a seasoned DBA so any feedback, critique, etc. would be extremely helpful.

Thanks for taking the time to read this!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

手心的海 2024-07-30 12:40:16

你永远不知道你工作的公司什么时候会突然爆发式增长，你必须在一夜之间雇佣 5 名开发人员。最好的选择是使用数字（整数）主键，因为整个团队使用它们会更容易，并且在数据库增长时将有助于提高性能。如果您必须对记录进行分解并对它们进行分区，您可能需要使用主键。如果您要添加带有日期时间戳的记录（每个表都应该如此），并且代码中的某处存在错误更新该字段的错误，则确认记录是否按正确顺序输入的唯一方法是检查主记录键。使用 INT 主键可能还有 10 个以上的 TSQL 或调试原因，其中最重要的是编写一个简单的查询来选择输入到表中的最后 5 条记录。

回复收藏 0 原文

听风吹 2024-07-30 12:40:16

在决定表中的键之前应考虑以下几点

当您
使用引用（外键），因为
你不使用外键，没关系
您的情况使用非数字键。
非数字键使用的空间比
数字键，可以减少
性能。
数字键使数据库看起来更简单
明白（你可以很容易地知道不
只需查看最后一行即可获得行数）

回复收藏 0 原文

始于初秋 2024-07-30 12:40:16

我想我同意切杜阿尔多的观点。距离我学习数据库设计课程已有 25 年了，但我记得有人告诉我，数据库引擎可以更有效地管理和加载使用字符键的索引。关于当密钥更改时数据库必须更新数千条记录以及所有增加的空间被较长的密钥占用然后必须跨系统传输的评论假设密钥实际上存储在记录中并且无论如何，它不必跨系统传输。如果您在表的列上创建索引，我认为该值不会存储在表的记录中（除非您设置了某些选项来这样做）。

如果您有一个表的自然键，即使它偶尔发生更改，创建另一个键也会产生冗余，从而可能导致数据完整性问题，并且实际上会创建更多需要跨系统存储和传输的信息。我所在的团队决定将本地应用程序设置存储在数据库中。它们的每个设置都有一个标识列、一个部分名称、一个键名称和一个键值。他们有一个存储过程（另一个圣战）来保存设置，确保它不会出现两次。我还没有找到使用设置 ID 的情况。然而，我最终得到了具有相同部分和键名的多条记录，导致我的应用程序失败。是的，我知道可以通过在列上定义约束来避免这种情况。

回复收藏 0 原文

伴我老 2024-07-30 12:40:15

Kimberly Tripp 有一系列优秀的博客文章（GUID 作为主键和/或集群键 和聚集索引争论仍在继续）关于创建聚集索引和选择主键的问题（相关问题，但并不总是完全准确）相同）。她的建议是，聚集索引/主键应该是：

唯一（否则作为键无用）
窄（该键用于所有非聚集索引，并且在外键关系）
静态（您不想更改所有相关记录）
始终增加（因此新记录总是添加到表的末尾，并且不必插入中间）

使用“Name”作为密钥，虽然它似乎满足#1，但并不满足其他三个中的任何一个。

即使对于您的“查找”表，如果您的老板决定将所有附属改为合作伙伴怎么办？您必须修改数据库中使用该值的所有行。

从性能角度来看，我最担心的可能是按键狭窄。如果您的网站名称实际上是一个很长的 URL，那么这可能会导致任何非聚集索引以及所有使用它作为外键的表的大小增大。

回复收藏 0 原文

忘你却要生生世世 2024-07-30 12:40:15

除了已经提出的所有其他要点之外，我还要补充一点，不要在 SQL Server 中使用大字段作为集群键（如果您不使用 SQL Server，那么这可能不适用于您）。

我添加这个是因为在 SQL Server 中，默认情况下表上的主键也是集群键（如果您愿意并了解它，您可以更改它，但大多数情况下，这还没有完成）。

决定 SQL Server 表物理顺序的聚集键也被添加到该表上的每个非聚集索引中。如果您只有几百到几千行和一两个索引，那没什么大不了的。但是，如果您有包含数百万行的非常大的表，并且可能有大量索引来加速查询，这确实会导致大量磁盘空间和服务器内存不必要地浪费。

例如，如果您的表有 1000 万行、10 个非聚集索引，并且您的聚集键是 26 个字节而不是 4 个字节（对于 INT），那么您就浪费了 10 mio。 10 x 22 字节，总共 22 亿字节（或约 2.2 GB）——这不再是小事了！

再次强调 - 这仅适用于 SQL Server，并且仅当您有非常大的表且其中包含大量非聚集索引时。

马克

回复收藏 0 原文

咋地 2024-07-30 12:40:15

我认为，一个能够抵抗损坏的数据库，即使它运行得慢一点，也比不抵抗损坏的数据库要好。

一般来说，代理键（例如任意数字标识符）会破坏数据库的完整性。主键是识别数据库中行的主要方式；如果主键值没有意义，则约束没有意义。因此，任何引用代理主键的外键也是可疑的。每当您必须检索、更新或删除单个行（并保证只影响一行）时，您必须使用主键（或另一个候选键）；当存在有意义的替代键时，必须计算出代理键值是什么，对于用户和应用程序来说是一个多余且潜在危险的步骤。

即使这意味着使用复合键来确保唯一性，我也主张尽可能使用一组有意义的、自然的属性作为主键。如果无论如何都需要记录属性，为什么还要添加另一个属性呢？也就是说，当没有自然、稳定、简洁、保证唯一的密钥（例如对于人来说）时，代理键就可以了。

如果您的 DBMS 支持，您还可以考虑使用索引键压缩。这可能非常有效，特别是对于复合键上的索引（想想 trie 数据结构），并且特别是如果最不具有选择性的属性可以首先出现在索引中。

回复收藏 0 原文

睡美人的小仙女 2024-07-30 12:40:15

这似乎是一个非常糟糕的主意。如果需要更改枚举的值怎么办？我们的想法是使其成为一个关系数据库而不是一组平面文件。此时为什么会有client_status表呢？此外，如果您在应用程序中使用数据，通过使用 GUID 或 INT 等类型，您可以验证类型并避免错误数据（就验证类型而言）。因此，这是阻止黑客攻击的众多措施中的另一条。

回复收藏 0 原文

唐婉 2024-07-30 12:40:15

就我个人而言，我认为使用这个想法你会遇到麻烦。当你最终建立更多的亲子关系时，当名字改变时，你最终会承担大量的工作（就像他们迟早会发生的那样）。当网站名称发生更改时，必须更新具有数千行的子表，这可能会严重影响性能。您必须计划如何确保这些变化发生。否则，网站名称会发生更改（哎呀，我们让该名称过期，其他人买了它。）要么由于外键约束而中断，要么您需要采用自动方式（级联更新）来通过系统传播更改。如果您使用级联更新，那么在处理大量更新时，您可能会突然使系统完全停止运行。这不被认为是一件好事。使用 id 进行关系确实更有效，然后在名称字段上放置唯一索引以确保它们保持唯一。数据库设计需要考虑数据完整性的维护以及这将如何影响性能。

另一件需要考虑的事情是网站名称往往超过几个字符。这意味着使用 id 字段进行连接和使用名称进行连接之间的性能差异可能非常显着。你必须在设计阶段考虑这些事情，因为当你的生产系统有数百万条记录超时时，再更改 ID 已经太晚了，解决方法是完全重组数据库并重写所有 SQL代码。十五分钟之内修复不了的问题就无法让网站恢复正常运行。

回复收藏 0 原文