当前位置：文江博客话题详情

DBI 的 fetchall_hashref 和 fetchall_arrayref 之间的性能差异是什么？

发布于 2024-08-22 12:33:59 字数 403 浏览 4 评论 0原文

我正在编写一些 Perl 脚本来操作两个 PostgreSQL 数据库中的大量数据（总共约 4200 万行，但不会一次性完成）。

对于我的一些查询，使用 fetchall_hashref 很有意义，因为我有合成密钥。但是，在其他情况下，我将使用三列的数组作为唯一键。

这让我想知道 fetchall_arrayref 和 fetchall_hashref 之间的性能差异。我知道在这两种情况下，所有内容都会进入内存，因此选择几 GB 的数据可能不是一个好主意，但除此之外，文档中似乎很少有关于性能的指导。

我的谷歌搜索不成功，所以如果有人能指出我一些一般性能研究的方向，我将不胜感激。

（我知道我可以自己进行基准测试，但不幸的是，出于开发目的，我无法访问具有与生产相同硬件的机器，这就是为什么我正在寻找一般准则甚至最佳实践）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

回忆追雨的时光 2024-08-29 12:33:59

获取方法之间的大多数选择取决于您希望数据最终采用什么格式以及您希望 DBI 为您完成多少工作。

我的记忆是，使用 fetchrow_arrayref 进行迭代并使用 bind_columns 是读取返回数据的最快（DBI 开销最小）的方法。

回复收藏 0 原文

淡看悲欢离合 2024-08-29 12:33:59

第一个问题是您是否真的首先需要使用fetchall。如果您不需要一次将所有 4200 万行存储在内存中，那么就不要一次将它们全部读入！正如 ysth 已经指出的那样，bind_columns 和 fetchrow_arrayref 通常是尽可能可行的方法。

假设确实需要 fetchall，我的直觉是 fetchall_arrayref 会稍微快一些，因为数组是一种更简单的数据结构，不需要计算数组的哈希值。插入的键，但节省的时间与数据库读取时间相比相形见绌，因此它不太可能显着。

不过，内存要求完全是另一回事。 fetchall_hashref 返回的结构是 id => 的哈希值。 row，每行都表示为 field name =>; 的哈希值字段值。如果你得到 4200 万行，这意味着你的字段名称列表在 4200 万组散列键中重复...这将需要比 fetchall_arrayref。（我想，除非 DBI 使用 tie 施展一些魔法来优化 fetchall_hashref 结构。）