当前位置：文江博客话题详情

最快的子集方法 - data.table 与 MySQL

发布于 2024-11-18 15:32:34 字数 400 浏览 10 评论 0原文

我是 R 用户，经常发现我需要编写需要对大型数据集（数十百万行）进行子集化的函数。当我将此类函数应用于大量观察时，如果我不小心实现它，可能会非常耗时。

为此，我有时使用 data.table 包，这比使用数据帧进行子集化提供了更快的速度。最近，我开始尝试像 RMySQL 这样的包，将一些表推送到 mysql，并使用该包运行 sql 查询并返回结果。

我发现性能改进参差不齐。对于较小的数据集（数百万），将数据加载到 data.table 并设置正确的键似乎可以加快子集化速度。对于较大的数据集（数十到数百百万），向 mysql 发送查询的速度似乎更快。

想知道是否有人知道哪种技术应该更快地返回简单的子集或聚合查询，以及这是否应该取决于数据的大小？我知道在 data.table 中设置键有点类似于创建索引，但除此之外我没有更多的直觉。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

や莫失莫忘 2024-11-25 15:32:34

如果数据适合 RAM，则 data.table 速度更快。如果您提供一个示例，您可能很快就会发现您使用 data.table 的方式很糟糕。您是否阅读过 data.table wiki 上的“注意事项”？

SQL 有一个下限，因为它是行存储。如果数据适合 RAM（64 位就相当多了），那么 data.table 会更快，不仅因为它在 RAM 中，而且因为列在内存中是连续的（最大限度地减少从 RAM 到 L2 的页获取以进行列操作）。正确使用data.table，它应该比SQL的下限更快。常见问题解答 3.1 对此进行了解释。如果您发现 data.table 速度变慢，则很有可能您错误地使用了 data.table（或者存在我们需要修复的性能错误）。因此，请在阅读 data.table wiki 后发布一些测试。

回复收藏 0 原文