python做大数据统计
现在数据库中有500万数据,一口气读到python中并进行相应的统计分析是十分困难的,内存肯定受不了。请问各位有经验的同志们是如何实现的?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
现在数据库中有500万数据,一口气读到python中并进行相应的统计分析是十分困难的,内存肯定受不了。请问各位有经验的同志们是如何实现的?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(6)
才500万,用pandas肯定没有问题啊,除非你几百列?pandas是分块读取的,这个量级根本不用分布式就能搞定
不行就学一下pyspark,几亿都小意思啦
数据挖掘常用的语言就是py,基本上没有py解决不了的,让你换语言的不要听。
这种级别的数据就别用python了。
500万……小意思……javascript都能解决了……
MATLAB可破,python的话有点吃不消
pandas 有chunksize 的概念, 另外可以在编写SQL的时候减少选取的维度
可以查阅相关文档:
pandas.read_sql
用mac的呵呵了,16G内存,完全可以应付;
此外,可以尝试外存的解决方案,比如GraphLab。