当前位置：文江博客话题详情

Python pandas dataframe panels

DataFrame 到 Panel 通过 Pandas 的非唯一列索引

发布于 2024-12-28 09:49:46 字数 255 浏览 3 评论 0原文

下面的代码应该可以实现我想要的功能，但是当循环完成 20% 时，它需要 10GB 的内存。

# In [4]: type(pd)
# Out[4]: pandas.sparse.frame.SparseDataFrame
memid = unique(pd.Member)
pan = {}
for mem in memid:
    pan[mem] = pd[pd.Member==mem]
goal = pandas.Panel(pan)

The following code should do what I want but it takes 10gb of ram by the time it is 20% done with the loop.

# In [4]: type(pd)
# Out[4]: pandas.sparse.frame.SparseDataFrame
memid = unique(pd.Member)
pan = {}
for mem in memid:
    pan[mem] = pd[pd.Member==mem]
goal = pandas.Panel(pan)

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

黯然#的苍凉 2025-01-04 09:49:46

我在这里创建了一个 GitHub 问题。

https://github.com/wesm/pandas/issues/663

我很漂亮当然，我发现了 NumPy ndarray 视图之间的循环引用导致内存泄漏。刚刚提交了修复：

https://github.com/wesm/pandas/commit/4c3916310a86c3e4dab6d30858a984a6f4a64103

您可以从源代码安装并让我知道这是否可以解决您的问题吗？

顺便说一句，您可以尝试使用 SparsePanel 而不是 Panel，因为 Panel 会将所有子 DataFrame 转换为密集形式。

最后，您可以考虑使用 groupby 作为 O(N * M) 分割 SparseDataFrame 的替代方案。它甚至更短：

pan = dict(pd.groupby('成员'))

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文