当前位置：文江博客话题详情

SQL etl sql-server t-sql

处理大量数据的最佳实践

发布于 2024-09-14 10:52:44 字数 510 浏览 1 评论 0原文

我需要对具有 26+ 百万行的表进行大量处理：

根据所述列的数据确定每列的正确大小
识别并删除重复的行。
创建主键（自动递增 id）
创建自然键（唯一约束）
添加和删除列

请列出有关如何加快此过程的提示以及执行上面列表的顺序。

非常感谢。

更新：无需担心并发用户。此外，该表上没有索引。该表是从源文件加载的。当一切都说完之后，就会有索引。

更新：如果您使用的列表与我列出的列表不同，请随时提及。

根据迄今为止的评论和我发现的有效内容：

从 26+ 百万行中创建行的子集。我发现 500,000 行效果很好。
删除不会使用的列（如果有）
使用 max(len()) 在一次扫描中为所有列设置适当的数据类型长度
在最终将成为自然键的列上创建一个（如果可能的话唯一的）聚集索引。
对所有行重复步骤 2-4

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

揽清风入怀 2024-09-21 10:52:44

如果您要删除某些列，则可能应该首先执行此操作。这将减少您必须为其他操作读取的数据量。

请记住，当您修改数据时，可能还需要修改包含该数据的索引。因此，如果您计划对表进行大量更新，然后再添加它们，通常最好删除索引。

回复收藏 0 原文

旧人哭 2024-09-21 10:52:44

顺序：5, 2, 1, 3, 4

1：没有办法解决：Select Max(Len(...)) From ...

2：这一切都取决于您认为重复的内容。

3：联机丛书中的 ALTER TABLE 会告诉您如何操作。确实没有办法加快速度。

4：参见 3。

5：参见 3。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

不再见

文章 0 评论 0

真是无聊啊

文章 0 评论 0

樱娆

文章 0 评论 0

浅语花开

文章 0 评论 0

烛光

文章 0 评论 0

绻影浮沉

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文