I. 教程
II. SQL 语言
III. 服务器管理
- 章14. 安装指导
- 章15. 在 Windows 上安装客户端
- 章16. 操作系统环境
- 章17. 服务器配置
- 章18. 数据库角色和权限
- 章19. 管理数据库
- 章21. 区域
- 章20. 用户认证
- 章22. 日常数据库维护工作
- 章23. 备份与恢复
- 章24. 高可用性与负载均衡
- 章25. 监控数据库的活动
- 章26. 监控磁盘使用情况
- 章27. 可靠性和预写式日志
- 章28. 回归测试
IV. 客户端接口
- Chapter 28. libpq - C 库
- 章29.
- Chapter 30. ecpg - 在 C 里嵌入 SQL
- Chapter 31. 信息模式
- 31.2. 数据类型
- 31.3. informationschemacatalog_name
- 31.4. applicable_roles
- 31.5. check_constraints
- 31.6. columndomainusage
- 31.7. column_privileges
- 31.8. columnudtusage
- 31.9. columns
- 31.10. constraintcolumnusage
- 31.11. constrainttableusage
- 31.12. datatypeprivileges
- 31.13. domain_constraints
- 31.14. domainudtusage
- 31.15. domains
- 31.16. element_types
- 31.17. enabled_roles
- 31.18. keycolumnusage
- 31.20. referential_constraints
- 31.21. rolecolumngrants
- 31.22. roleroutinegrants
- 31.23. roletablegrants
- 31.24. roleusagegrants
- 31.25. routine_privileges
- 31.26. routines
- 31.27. schemata
- 31.28. sql_features
- 31.29. sqlimplementationinfo
- 31.30. sql_languages
- 31.31. sql_packages
- 31.32. sql_sizing
- 31.33. sqlsizingprofiles
- 31.34. table_constraints
- 31.35. table_privileges
- 31.36. tables
- 31.37. triggers
- 31.38. usage_privileges
- 31.39. viewcolumnusage
- 31.40. viewtableusage
- 31.41. views
V. 服务器端编程
- 章33. 扩展 SQL
- 章34. 触发器
- 章35. 规则系统
- 章36. 过程语言
- 章37. PL/pgSQL - SQL 过程语言
- 章38. PL/Tcl - Tcl 过程语言
- 章39. PL/Perl - Perl 过程语言
- 章40. PL/Python - Python 过程语言
- 章41. 服务器编程接口
VI. 参考手册
- I. SQL 命令
- ABORT
- ALTER AGGREGATE
- ALTER CONVERSION
- ALTER DATABASE
- ALTER DOMAIN
- ALTER FUNCTION
- ALTER GROUP
- ALTER INDEX
- ALTER LANGUAGE
- ALTER OPERATOR
- ALTER OPERATOR CLASS
- ALTER ROLE
- ALTER SCHEMA
- ALTER SEQUENCE
- ALTER TABLE
- ALTER TABLESPACE
- ALTER TRIGGER
- ALTER TYPE
- ALTER USER
- ANALYZE
- BEGIN
- CHECKPOINT
- CLOSE
- CLUSTER
- COMMENT
- COMMIT PREPARED
- COMMIT
- COPY
- CREATE AGGREGATE
- CREATE CAST
- CREATE CONSTRAINT TRIGGER
- CREATE CONVERSION
- CREATE DATABASE
- CREATE DOMAIN
- CREATE FUNCTION
- CREATE GROUP
- CREATE INDEX
- CREATE LANGUAGE
- CREATE OPERATOR CLASS
- CREATE OPERATOR
- CREATE ROLE
- CREATE RULE
- CREATE SCHEMA
- CREATE SEQUENCE
- CREATE TABLE
- CREATE TABLE AS
- CREATE TABLESPACE
- CREATE TRIGGER
- CREATE TYPE
- CREATE USER
- CREATE VIEW
- DEALLOCATE
- DECLARE
- DELETE
- DROP OWNED
- DROP AGGREGATE
- DROP CAST
- DROP CONVERSION
- DROP DATABASE
- DROP DOMAIN
- DROP FUNCTION
- DROP GROUP
- DROP INDEX
- DROP LANGUAGE
- DROP OPERATOR CLASS
- DROP OPERATOR
- DROP ROLE
- DROP RULE
- DROP SCHEMA
- DROP SEQUENCE
- DROP TABLE
- DROP TABLESPACE
- DROP TRIGGER
- DROP TYPE
- DROP USER
- DROP VIEW
- END
- EXECUTE
- EXPLAIN
- FETCH
- GRANT
- INSERT
- LISTEN
- LOAD
- LOCK
- MOVE
- NOTIFY
- PREPARE TRANSACTION
- PREPARE
- REASSIGN OWNED
- REINDEX
- RELEASE SAVEPOINT
- RESET
- REVOKE
- ROLLBACK PREPARED
- ROLLBACK TO SAVEPOINT
- ROLLBACK
- SAVEPOINT
- SELECT
- SELECT INTO
- SET
- SET CONSTRAINTS
- SET ROLE
- SET SESSION AUTHORIZATION
- SET TRANSACTION
- SHOW
- START TRANSACTION
- TRUNCATE
- UNLISTEN
- UPDATE
- VACUUM
- II. PostgreSQL 客户端应用程序
- III. PostgreSQL 服务器应用程序
VII. 内部
- 章42. PostgreSQL 内部概貌
- 章43. 系统表
- 43.1. 概述
- 43.2. pg_aggregate
- 43.3. pg_am
- 43.4. pg_amop
- 43.5. pg_amproc
- 43.6. pg_attrdef
- 43.7. pg_attribute
- 43.8. pg_authid
- 43.9. pgauthmembers
- 43.10. pg_autovacuum
- 43.11. pg_cast
- 43.12. pg_class
- 43.13. pg_constraint
- 43.14. pg_conversion
- 43.15. pg_database
- 43.16. pg_depend
- 43.17. pg_description
- 43.18. pg_index
- 43.19. pg_inherits
- 43.20. pg_language
- 43.21. pg_largeobject
- 43.22. pg_listener
- 43.23. pg_namespace
- 43.24. pg_opclass
- 43.25. pg_operator
- 43.26. pg_pltemplate
- 43.27. pg_proc
- 43.28. pg_rewrite
- 43.29. pg_shdepend
- 43.30. pg_shdescription
- 43.31. pg_statistic
- 43.32. pg_tablespace
- 43.33. pg_trigger
- 43.34. pg_type
- 43.35. 系统视图
- 43.36. pg_cursors
- 43.37. pg_group
- 43.38. pg_indexes
- 43.39. pg_locks
- 43.40. pgpreparedstatements
- 43.41. pgpreparedxacts
- 43.42. pg_roles
- 43.43. pg_rules
- 43.44. pg_settings
- 43.45. pg_shadow
- 43.46. pg_stats
- 43.47. pg_tables
- 43.48. pgtimezoneabbrevs
- 43.49. pgtimezonenames
- 43.50. pg_user
- 43.51. pg_views
- 章44. 前/后端协议
- 章45. PostgreSQL 编码约定
- 章46. 本地语言支持
- 章47. 书写一个过程语言处理器
- 章48. 基因查询优化器
- 章49. 索引访问方法接口定义
- 章50. GiST 索引
- 章51. GIN 索引
- 章52. 数据库物理存储
- 章53. BKI 后端接口
- 章54. 规划器如何使用统计信息
VIII. 附录
52.2. TOAST
本节提供超大尺寸字段存储技术(TOAST, The Oversized-Attribute Storage Technique)的一个概述。
因为 PostgreSQL 的页面大小是固定的(通常是 8Kb),并且不允许行跨越多个页面,因此不可能直接存储非常大的字段值。为了突破这个限制,大的字段值被压缩和/或打碎成多个物理行。这些事情对用户都是透明的,只是在后端代码上有一些小的影响。这个技术的昵称是 TOAST("切片面包之后最好的东西")。
只有一部分数据类型支持 TOAST(没必要在那些不可能生成大的字段值的数据类型强制这种额外开销)。要支持TOAST,数据类型必须有变长(varlena)表现形式,这个时候,任何存储的数值的头 32 位都是存储着以字节记的数值的总长度(包括长度本身)。TOAST 并不约束剩下的表现形式。所有支持 TOAST 的数据类型之 C 级别的函数都必须仔细处理 TOAST 的输入值。也就是通常是在对一个输入值做任何事情之前调用 PG_DETOAST_DATUM
;但是在某些情况下也存在更高效的方法。
TOAST 使用变长长度字的最高两个二进制位,这样就把任何可以 TOAST 的数据类型的逻辑长度限制在了 1GB(230-1 字节)之内。。如果两个位都是零,那么数值是该数据类型一个普通的未 TOAST 的值。如果设置了其中一个位,那么表示该数值被压缩过,使用前必须先解压缩。如果设置了另外一个位,则表示该数值是在线外存储的。这个时候,该值剩下的部分只是一个指针,而正确的数值必须在其它地方查找。如果两个位都设置了,那么这个线外数据也被压缩过了。不管哪种情况,长度字里剩下的低位都表示数据的实际尺寸,而不是解压缩或者从线外数据抓过来之后的逻辑尺寸。
如果一个表中有任何一个字段是可以 TOAST 的,那么该表将有一个关联的 TOAST 表,其 OID 存储在表的 pg_class
.reltoastrelid
记录里,线外 TOAST 过的数值保存在 TOAST 表里,下面有更详细的描述。
这里使用的压缩技术是非常简单并且非常快速的 LZ 族压缩技巧。参阅 src/backend/utils/adt/pg_lzcompress.c
获取细节。
线外数据被分裂成(如果压缩过,在压缩之后)最多 TOAST_MAX_CHUNK_SIZE
(缺省 2000 ,略小于 BLCKSZ/4
)字节的块,每个块都作为独立的行在 TOAST 表里为所属表存储。每个 TOAST 表都有 chunk_id
字段(一个表示特定 TOAST 值的 OID)、chunk_seq
(一个序列号,存储该块在数值中的位置)、chunk_data
(该块实际的数据)。在 chunk_id
和 chunk_seq
上有一个唯一索引,提供对数值的快速检索。因此,一个表示线外 TOAST 值的指针数据需要存储要查阅的 TOAST 的 OID 和特定数值的 OID(它的 chunk_id
)。为了方便,指针数据还存储逻辑数据的尺寸(原始的未压缩的数据长度)以及实际存储的尺寸(如果使用了压缩,则两者不同)。加上头部的长度字,一个 TOAST 指针数据的总尺寸是 20 字节,不管它代表的数值的实际长度是多大。
TOAST 代码只有在准备向某表中存储超过 BLCKSZ/4
字节(通常是 2KB)的行的时候才会触发。TOAST 代码将压缩和/或线外存储字段值,直到数值比 BLCKSZ/4
字节短,或者无法得到更好的结果的时候才停止。在一个 UPDATE 操作过程中,未改变的字段的数值通常原样保存;所以,如果 UPDATE 一个带有线外数据的行时,如果线外数据值没有变化,那么将不会有 TOAST 开销存在。
TOAST 代码识别四种不同的存储可 TOAST 字段的策略:
PLAIN
避免压缩或者线外存储。这只是对那些不能 TOAST 的数据类型才有可能。EXTENDED
允许压缩和线外存储。这是大多数可以 TOAST 的数据类型的缺省。首先将企图进行压缩,如果行仍然太大,那么则进行线外存储。EXTERNAL
允许线外存储,但是不许压缩。这将令那些在text
和bytea
字段上的子字符串操作更快(代价是增加了存储空间),因此这些操作是经过优化的:如果线外数据没有压缩,那么它们只会去抓取需要的部分。MAIN
允许压缩,但不允许线外存储。实际上,在这样的字段上仍然会进行线外存储,但只是作为没有办法把数据行变得更小的情况下的最后的手段。
每个可以 TOAST 的数据类型都为该数据类型的字段声明一个缺省策略,但是特定表的字段的存储策略可以用 ALTER TABLE SET STORAGE
修改。
这个方法比那些更直接的方法,比如允许行数值直接跨越多个页面,有更多优点。假设查询通常是用相对比较短的键值进行匹配的,那么大多数执行器的工作都将使用主行记录完成。TOAST 过的属性的大体积数值只是在把结果集发送给客户端的时候才抽出来(如果选择了它的话)。因此,主表要小得多,并且它的大部分行都存储在共享缓冲区里,因此就可以不需要任何线外存储。排序集也缩小了,并且排序将更多地在内存里完成。一个小测试表明,一个用于保存 HTML 页面以及它们的 URL 的表,包括 TOAST 表在内,存储将近一半大小的裸数据,而主表只包含全部数据的 10%(URL 和一些小的 HTML 页面)。与在一个非 TOAST 的对比表里面存储(把全部 HTML 页面裁剪成 7KB 以匹配页面大小),没有任何运行时的区别。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论