python做大数据统计

发布于 2022-09-01 17:08:22 字数 78 浏览 12 评论 0

现在数据库中有500万数据,一口气读到python中并进行相应的统计分析是十分困难的,内存肯定受不了。请问各位有经验的同志们是如何实现的?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

心凉怎暖 2022-09-08 17:08:22

才500万,用pandas肯定没有问题啊,除非你几百列?pandas是分块读取的,这个量级根本不用分布式就能搞定

不行就学一下pyspark,几亿都小意思啦

数据挖掘常用的语言就是py,基本上没有py解决不了的,让你换语言的不要听。

淤浪 2022-09-08 17:08:22

这种级别的数据就别用python了。

长亭外,古道边 2022-09-08 17:08:22

500万……小意思……javascript都能解决了……

梦忆晨望 2022-09-08 17:08:22

MATLAB可破,python的话有点吃不消

贪恋 2022-09-08 17:08:22

pandas 有chunksize 的概念, 另外可以在编写SQL的时候减少选取的维度

可以查阅相关文档:

pandas.read_sql

本宫微胖 2022-09-08 17:08:22

用mac的呵呵了,16G内存,完全可以应付;

此外,可以尝试外存的解决方案,比如GraphLab

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文