当前位置：文江博客话题详情

PostgreSQL CSV dataset normalization bulk-load

将非标准化数据集批量加载到 PostgreSQL 的最有效方法？

发布于 2024-09-28 18:05:10 字数 419 浏览 10 评论 0原文

我已经加载了一个巨大的 CSV 数据集——Eclipse 的使用 PostgreSQL 的 COPY 过滤的使用数据，并且它占用了大量空间，因为它没有标准化：其中三个 TEXT 列可以更有效地重构为单独的表，以便从具有外键列的主表中引用。

我的问题是：加载所有数据后重构数据库更快，还是创建具有所有约束的预期表，然后加载数据更快？前者涉及重复扫描一个巨大的表（接近 10^9 行），而后者涉及对每个 CSV 行进行多次查询（例如，以前见过此操作类型吗？如果没有，请将其添加到操作表中，获取其ID，在主表中使用正确的操作 ID 创建一行，等等）。

目前，每个重构步骤大约需要一天左右的时间，初始加载也大约需要相同的时间。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

地狱即天堂 2024-10-05 18:05:10

根据我的经验，您希望将您关心的所有数据放入数据库中的临时表中，然后从那里开始，之后尽可能多地通过存储过程执行基于集合的逻辑。当您加载到临时表时，表上没有任何索引。数据加载到表后创建索引。

查看此链接以获取一些提示 http://www.postgresql.org/docs/ 9.0/interactive/populate.html

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文