大规模 ETL 字符串查找性能问题

发布于 2024-08-04 06:29:14 字数 589 浏览 4 评论 0原文

我遇到 ETL 流程性能问题。我有一个包含 4+ 十亿行的表。结构为：

id bigint Identity(1,1)
raw_url varchar(2000) not null
md5hash char(32) not null
job_control_number int not null

id 上的聚集唯一索引和 md5hash 上的非聚集唯一索引

SQL Server 2008 Enterprise 页面级压缩已打开

我们必须将 Web 服务器日志中的原始 URL 存储为维度。由于原始字符串> 900 个字符，我们无法在该列上放置唯一索引。我们使用 md5 哈希函数来创建唯一的 32 个字符的字符串以用于索引目的。我们不能允许表中出现重复的 raw_url 字符串。

问题是性能不佳。 md5hash 本质上是随机的，因此索引碎片达到 50%，这会导致 IO 效率低下。

寻求有关如何构建此结构的建议，以实现更好的插入和查找性能以及更少的索引碎片。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

泪冰清 2024-08-11 06:29:14

我会将表分解为物理文件，并将较旧的未更改数据放在只读文件组中。确保非聚集索引也在文件组中。

编辑（来自评论）：当我考虑这个问题时，如果您关闭页面级压缩，那也会改善 I/O。

回复收藏 0 原文

踏月而来 2024-08-11 06:29:14

我认为它应该是事实表中的退化维度。

并找出某种方法对数据进行分区。也许将前 xxx 个字符存储为单独的字段，然后按其进行分区。
然后，当您进行查找时，您将传递短列和长列，因此它首先在分区中查找。

回复收藏 0 原文

~没有更多了~

关于作者

旧城空念

暂无简介

文章

26 人气

关注发私信

Promise

文章 0 评论 0

关注

qq_lbRlsh

文章 0 评论 0

关注

待＂谢繁草

文章 0 评论 0

关注

yy2010hell

文章 0 评论 0

关注

漫无边际

文章 0 评论 0

关注

傲娇萝莉攻

文章 0 评论 0

友情链接

文江博客

大规模 ETL 字符串查找性能问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签