大部分的欢呼（在关于这个问题的“辩论”中）可能是由于什么是一个错误的假设 - 您必须在其他表中使用主键进行连接和外键。这是错误的。您可以使用任何键作为其他表中外键的目标。它可以是主键、备用键或任何唯一索引或唯一约束，只要它在目标关系（表）中是唯一的。至于连接，您可以使用任何东西作为连接条件，它甚至不必是键、索引，甚至不必是唯一的！（尽管如果它不是唯一的，您将在它创建的笛卡尔积中获得多行）。您甚至可以使用非特定条件（如 >、< 或“like”）作为连接条件来创建连接。

事实上，您可以使用任何计算结果为布尔值的有效 SQL 表达式来创建连接。

回复收藏 0 原文

人事已非 2024-08-05 14:02:13

自然键与代理键的不同之处在于值，而不是类型。

任何类型都可以用作代理键，例如用于系统生成的 slug 的 VARCHAR 或其他类型。

但是，代理键最常用的类型是 INTEGER 和 RAW(16) （或者您的 RDBMS 用作 GUID 的任何类型） /code>'s)，

比较代理整数和自然整数（如 `SSN`）所需的时间完全相同。

比较 VARCHAR 会考虑排序规则，它们通常比整数长，这使得它们效率较低。

比较一组两个INTEGER 的效率也可能低于比较单个INTEGER 的效率。

对于较小的数据类型，这种差异可能是获取页面、遍历索引、获取数据库锁存器等所需时间的百分比。

以下是数字（在 MySQL 中） )：

CREATE TABLE aint (id INT NOT NULL PRIMARY KEY, value VARCHAR(100));
CREATE TABLE adouble (id1 INT NOT NULL, id2 INT NOT NULL, value VARCHAR(100), PRIMARY KEY (id1, id2));
CREATE TABLE bint (id INT NOT NULL PRIMARY KEY, aid INT NOT NULL);
CREATE TABLE bdouble (id INT NOT NULL PRIMARY KEY, aid1 INT NOT NULL, aid2 INT NOT NULL);

INSERT
INTO    aint
SELECT  id, RPAD('', FLOOR(RAND(20090804) * 100), '*')
FROM    t_source;

INSERT
INTO    bint
SELECT  id, id
FROM    aint;

INSERT
INTO    adouble
SELECT  id, id, value
FROM    aint;

INSERT
INTO    bdouble
SELECT  id, id, id
FROM    aint;

SELECT  SUM(LENGTH(value))
FROM    bint b
JOIN    aint a
ON      a.id = b.aid;

SELECT  SUM(LENGTH(value))
FROM    bdouble b
JOIN    adouble a
ON      (a.id1, a.id2) = (b.aid1, b.aid2);

t_source 只是一个包含 1,000,000 行的虚拟表。

aint 和 adouble、bint 和 bdouble 包含完全相同的数据，除了 aint有一个整数作为PRIMARY KEY，而adouble有一对两个相同的整数。

在我的机器上，两个查询都运行 14.5 秒，+/- 0.1 秒。

性能差异（如果有）在波动范围内。

Natural keys differ from surrogate keys in value, not type.

Any type can be used for a surrogate key, like a VARCHAR for the system-generated slug or something else.

However, most used types for surrogate keys are INTEGER and RAW(16) (or whatever type your RDBMS does use for GUID's),

Comparing surrogate integers and natural integers (like `SSN`) takes exactly same time.

Comparing VARCHARs make take collation into account and they are generally longer than integers, that making them less efficient.

Comparing a set of two INTEGER is probably also less efficient than comparing a single INTEGER.

On datatypes small in size this difference is probably percents of percents of the time required to fetch pages, traverse indexes, acquite database latches etc.

And here are the numbers (in MySQL):

CREATE TABLE aint (id INT NOT NULL PRIMARY KEY, value VARCHAR(100));
CREATE TABLE adouble (id1 INT NOT NULL, id2 INT NOT NULL, value VARCHAR(100), PRIMARY KEY (id1, id2));
CREATE TABLE bint (id INT NOT NULL PRIMARY KEY, aid INT NOT NULL);
CREATE TABLE bdouble (id INT NOT NULL PRIMARY KEY, aid1 INT NOT NULL, aid2 INT NOT NULL);

INSERT
INTO    aint
SELECT  id, RPAD('', FLOOR(RAND(20090804) * 100), '*')
FROM    t_source;

INSERT
INTO    bint
SELECT  id, id
FROM    aint;

INSERT
INTO    adouble
SELECT  id, id, value
FROM    aint;

INSERT
INTO    bdouble
SELECT  id, id, id
FROM    aint;

SELECT  SUM(LENGTH(value))
FROM    bint b
JOIN    aint a
ON      a.id = b.aid;

SELECT  SUM(LENGTH(value))
FROM    bdouble b
JOIN    adouble a
ON      (a.id1, a.id2) = (b.aid1, b.aid2);

t_source is just a dummy table with 1,000,000 rows.

aint and adouble, bint and bdouble contain exactly same data, except that aint has an integer as a PRIMARY KEY, while adouble has a pair of two identical integers.