简单的表操作与MLJ的汇编时间非常大

发布于 2025-02-06 02:17:45 字数 732 浏览 2 评论 0原文

我正在尝试在数据框架（30,000行x 8,000列）上使用MLJ，但是每个表操作似乎都需要大量时间进行编译，但运行速度很快。

我给了一个示例，其中有一个代码，其中生成了5 x 5000个数据框，并且卡在拆卸行（第3行）上。当我为5 x 5数据框架运行相同的代码时，第3行输出“ 2.872309秒（9.09 m分配：565.673 MIB，6.47％GC时间，99.84％的汇编时间）”。

对于看似简单的任务来说，这是一个疯狂的编译时间，我想知道如何减少这一点。谢谢你， Jack

使用MLJ

使用dataframes

[line 1] @Time arr = [[rand（1:10）for I in 1：5] in 1：5] in 1：in 1：5] 5000];

输出：0.053668秒（200.76 K分配：11.360 MIB，22.16％GC时间，99.16％的编译时间）

[line 2] @Time DF = dationframes.dataframes.dataframe（arto） /code>

输出：0.267325秒（733.43 K分配：40.071 MIB，4.29％GC时间，98.67％的编译时间）

[line 3] @time y，x = uncack = uncack（df，==（x1））;

未完成运行

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

最冷一天 2025-02-13 02:17:45

朱莉娅编译器在具有（可能）（可能）异质列类型的非常宽的数据框架中挣扎并不意外。我不确定为什么这对此操作必须是一个问题 - 我已经与MLJ维护者进行了核对

也就是说，

y, X = df.x1, select!(df, Not(:x1))

。代码>将从基础数据中删除x1，如果要复制数据使用选择而不是）

It's not unexpected that the Julia compiler struggles with very wide DataFrames, which have (potentially) heterogeneous column types. That said I'm not sure why this has to be a problem for this operation - I've checked with MLJ maintainers who can hopefully chime in.

In the meantime you can simply do