返回介绍

数据库设计规范

发布于 2024-08-13 19:52:40 字数 6979 浏览 0 评论 0 收藏 0

范式

理解数据库范式-通俗易懂 - Strawberry 丶 - 博客园 (cnblogs.com)

在关系型数据库中,关于数据表设计的基本原则、规则就称为范式。 可以理解为,一张数据表的设计结构需要满足的某种设计标准的级别。要想设计一个结构合理的关系型数据库,必须满足一定的范式。

目前关系型数据库有六种常见范式,按照范式级别,从低到高分别是:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。高级别的范式满足低级别的范式。

范式只是设计的标准,实际上设计数据表时,不一定要完全满足这些标准。

一些概念:

属性 :表中的字段

元组 :表中的一行数据。

:表中可以唯一确定一个元组的某个属性(或者属性组),如果这样的码有不止一个,那么大家都叫候选码,我们从候选码中挑一个出来做老大,它就叫 主码

全码 :如果一个码包含了所有的属性,这个码就是全码。

主属性 :一个属性只要在任何一个候选码中出现过,这个属性就是主属性。

非主属性 :与上面相反,没有在任何候选码中出现过,这个属性就是非主属性。

外码 :一个属性(或属性组),它不是码,但是它别的表的码,它就是外码。

第一范式

定义:确保数据表中的每个字段的值具有原子性,即不可拆分

第二范式

定义:满足第一范式,所有非主属性完全依赖码(每条数据都可以唯一标识,并且普通字段完全依赖于主键)

完全依赖:设 X,Y 是关系 R 的两个属性集合,X’是 X 的真子集,存在 X→Y,但对每一个 X’都有 X’!→Y,则称 Y 完全函数依赖于 X。

部分依赖:设 X,Y 是关系 R 的两个属性集合,存在 X→Y,若 X’是 X 的真子集,存在 X’→Y,则称 Y 部分函数依赖于 X。

例如有一张表中有 key1,key2,列 1,列 2,列 3。完全依赖就是只有知道了 key1 和 key2 的值,才能唯一确定列 1,列 2,列 3。而如果只知道 key1 或 key2,则无法唯一确定列 1,列 2,列 3。

通俗来说,第二范式的就是要求一张表只做一件事。

第三范式

定义:满足第二范式,消除传递依赖

即每一个非主属性都直接依赖码,而非主属性之间不能互相依赖

巴斯范式

定义:满足第三范式,主属性之间没有互相依赖


范式的优点: 有助于消除数据冗余。

范式的缺点: 可能会降低查询效率,因为范式等级越高,设计的表就越多,越精细,查询时就需要关联更多的表。

在实际开发中,一般只满足到第三范式或巴斯范式;为了提高查询的效率,可能会适当增加冗余数据。

反范式化

当冗余信息有价值或者能够大幅提高查询效率,就会采取反范式化来优化。

添加冗余字段的建议:

  1. 冗余字段不需要经常修改
  2. 冗余字段查询时不可或缺

数据表的设计原则

  1. 表的个数越少越好
  2. 表中的字段个数越少越好
  3. 表中联合主键的字段个数越少越好
  4. 使用主键和外键越多越好

设计建议

库相关

  1. 【强制】库的名称必须控制在 32 个字符以内,只能使用英文字母、数字和下划线,建议以英文字母开头。
  2. 【强制】库名中英文 一律小写 ,不同单词采用 下划线 分割。须见名知意。
  3. 【强制】库的名称格式:业务系统名称_子系统名。
  4. 【强制】库名禁止使用关键字(如 type,order 等)。
  5. 【强制】创建数据库时必须 显式指定字符集 ,并且字符集只能是 utf8mb4。创建数据库 SQL 举例:CREATE DATABASE crm_fund DEFAULT CHARACTER SET 'utf8mb4' ;
  6. 【建议】对于程序连接数据库账号,遵循 权限最小原则 。使用数据库账号只能在一个 DB 下使用,不准跨库。程序使用的账号 原则上不准有 drop 权限
  7. 【建议】临时库以 tmp_ 为前缀,并以日期为后缀;备份库以 bak_ 为前缀,并以日期为后缀。

表、列相关

  1. 【强制】表和列的名称必须控制在 32 个字符以内,表名只能使用英文字母、数字和下划线,建议以 英文字母开头
  2. 【强制】 表名、列名一律小写 ,不同单词采用下划线分割。须见名知意。
  3. 【强制】表名要求有模块名强相关,同一模块的表名尽量使用 统一前缀 。比如:crm_fund_item
  4. 【强制】创建表时必须 显式指定字符集 为 utf8mb4。
  5. 【强制】表名、列名禁止使用关键字(如 type,order 等)。
  6. 【强制】创建表时必须 显式指定表存储引擎 类型。如无特殊需求,一律为 InnoDB。
  7. 【强制】建表必须有 comment。
  8. 【强制】字段命名应尽可能使用表达实际含义的英文单词或 缩写 。如:公司 ID,不要使用 corporation_id, 而用 corp_id 即可。
  9. 【强制】布尔值类型的字段命名为 is_描述 。如 member 表上表示是否为 enabled 的会员的字段命名为 is_enabled。
  10. 【强制】禁止在数据库中存储图片、文件等大的二进制数据。通常文件很大,短时间内造成数据量快速增长,数据库进行数据库读取时,通常会进行大量的随机 IO 操作,文件很大时,IO 操作很耗时。通常存储于文件服务器,数据库只存储文件地址信息。
  11. 【建议】建表时关于主键: 表必须有主键 (1) 强制要求主键为 id,类型为 int 或 bigint,且为 auto_increment 建议使用 unsigned 无符号型。 (2) 标识表里每一行主体的字段不要设为主键,建议设为其他字段如 user_id,order_id 等,并建立 unique key 索引。因为如果设为主键且主键值为随机插入,则会导致 innodb 内部页分裂和大量随机 I/O,性能下降。
  12. 【建议】核心表(如用户表)必须有行数据的 创建时间字段 (create_time)和 最后更新时间字段 (update_time),便于查问题。
  13. 【建议】表中所有字段尽量都是 NOT NULL 属性,业务可以根据需要定义 DEFAULT 值 。 因为使用 NULL 值会存在每一行都会占用额外存储空间、数据迁移容易出错、聚合函数计算结果偏差等问题。
  14. 【建议】所有存储相同数据的 列名和列类型必须一致 (一般作为关联列,如果查询时关联列类型不一致会自动进行数据类型隐式转换,会造成列上的索引失效,导致查询效率降低)。
  15. 【建议】中间表(或临时表)用于保留中间结果集,名称以 tmp_ 开头。备份表用于备份或抓取源表快照,名称以 bak_ 开头。中间表和备份表定期清理。
  16. 【示范】一个较为规范的建表语句:
CREATE TABLE user_info ( 
    `id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键', 
    `user_id` bigint(11) NOT NULL COMMENT '用户 id', 
    `username` varchar(45) NOT NULL COMMENT '真实姓名', 
    `email` varchar(30) NOT NULL COMMENT '用户邮箱', 
    `nickname` varchar(45) NOT NULL COMMENT '昵称', 
    `birthday` date NOT NULL COMMENT '生日', 
    `sex` tinyint(4) DEFAULT '0' COMMENT '性别', 
    `short_introduce` varchar(150) DEFAULT NULL COMMENT '一句话介绍自己,最多 50 个汉字', 
    `user_resume` varchar(300) NOT NULL COMMENT '用户提交的简历存放地址', 
    `user_register_ip` int NOT NULL COMMENT '用户注册时的源 ip', 
    `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间', 
    `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改时间', 
    `user_review_status` tinyint NOT NULL COMMENT '用户资料审核状态,1 为通过,2 为审核中,3 为未 通过,4 为还未提交审核',
    PRIMARY KEY (`id`), 
    UNIQUE KEY `uniq_user_id` (`user_id`), 
    KEY `idx_username`(`username`), 
    KEY `idx_create_time_status`(`create_time`,`user_review_status`) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='网站用户基本信息'
  1. 【建议】创建表时,可以使用可视化工具。这样可以确保表、字段相关的约定都能设置上。实际上,我们通常很少自己写 DDL 语句,可以使用一些可视化工具来创建和操作数据库和数据表。可视化工具除了方便,还能直接帮我们将数据库的结构定义转化成 SQL 语言,方便数据库和数据表结构的导出和导入。

索引相关

  1. 【强制】InnoDB 表必须主键为 id int/bigint auto_increment,且主键值 禁止被更新
  2. 【强制】InnoDB 和 MyISAM 存储引擎表,索引类型必须为 BTREE
  3. 【建议】主键的名称以 pk_ 开头,唯一键以 uni_uk_ 开头,普通索引以 idx_ 开头,一律使用小写格式,以字段的名称或缩写作为后缀。
  4. 【建议】多单词组成的 columnname,取前几个单词首字母,加末单词组成 column_name。如: sample 表 member_id 上的索引:idx_sample_mid。
  5. 【建议】单个表上的索引个数 不能超过 6 个
  6. 【建议】在建立索引时,多考虑建立 联合索引 ,并把区分度最高的字段放在最前面。
  7. 【建议】在多表 JOIN 的 SQL 里,保证被驱动表的连接列上有索引,这样 JOIN 执行效率最高。
  8. 【建议】建表或加索引时,保证表里互相不存在 冗余索引 。 比如:如果表里已经存在 key(a,b), 则 key(a) 为冗余索引,需要删除。

SQL 编写相关

  1. 【强制】程序端 SELECT 语句必须指定具体字段名称,禁止写成 *。
  2. 【建议】程序端 insert 语句指定具体字段名称,不要写成 INSERT INTO t1 VALUES(…)。
  3. 【建议】除静态表或小表(100 行以内),DML 语句必须有 WHERE 条件,且使用索引查找。
  4. 【建议】INSERT INTO…VALUES(XX),(XX),(XX).. 这里 XX 的值不要超过 5000 个。 值过多虽然上线很快,但会引起主从同步延迟。
  5. 【建议】SELECT 语句不要使用 UNION,推荐使用 UNION ALL,并且 UNION 子句个数限制在 5 个以内。
  6. 【建议】减少使用 ORDER BY,和业务沟通能不排序就不排序,或将排序放到程序端去做。ORDER BY、GROUP BY、DISTINCT 这些语句较为耗费 CPU,数据库的 CPU 资源是极其宝贵的。
  7. 【建议】包含了 ORDER BY、GROUP BY、DISTINCT 这些查询的语句,WHERE 条件过滤出来的结果集请保持在 1000 行以内,否则 SQL 会很慢。
  8. 【建议】对单表的多次 alter 操作必须合并为一次,且必须留下 alter 语句的记录到 git 中。对于超过 100W 行的大表进行 alter table,必须经过 DBA 审核,并在业务低峰期执行,多个 alter 需整合在一起。因为 alter table 会产生 表锁 ,期间阻塞对于该表的所有写入,对于业务可能会产生极大影响。
  9. 【建议】批量操作数据时,需要控制事务处理间隔时间,进行必要的 sleep。
  10. 【建议】事务里不要包含过多慢 SQL。因为过长的事务会导致锁数据较久,MySQL 内部缓存、连接消耗过多等问题。
  11. 【建议】事务里更新语句尽量基于主键或 UNIQUE KEY,如 UPDATE… WHERE id=XX;否则会产生间隙锁,内部扩大锁定范围,导致系统性能下降,产生死锁。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文