推荐的包装,用于大型数据集处理和R中的机器学习
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
python-循环通过数据框架,创建类对象
我有以下数据框架(已经处理和清洁以删除特殊字符等)。 parent_id 成员_id item_id item_name par_100 成员 1 t恤 par_100 成员1成员 1 元素 par_102…
如何从Parquet到Pandas更快地阅读?
我有这个脚本,如果可能的话,我想更快。将镶木木数据集读取到熊猫。 import pandas as pd from pyarrow.parquet import ParquetDataset import s3fs …
如何加快查询响应时间?
数据库中有一个集合,约有460万个文档。 (可以在屏幕截图中看到数据结构。) When trying to pull at least one value from this collection, the re…
查询使用Python PyodBC的数据库,并将结果导出到HDF5文件(内存错误)
我最近一直在研究一个超过5000万行和40列的数据。我使用了pyodbc并通过块读取数据,这花费了将近40分钟。我的团队成员使用R(RODBC软件包)从MSSQL阅…
直接查询和验证数据链球机或转换为DB以获取更快的查询
我们有10GB CSV文件,其中读取CSV文件并在正常机器中很难进行验证,因此我们决定选择Databricks执行相同的功能。 我的10GB文件数据,每周更改。这意味…
多边形的点。如何将它们与给定的坐标保持空间匹配?
我有一个Georefercted Flickr帖子的数据集(下图35k,图片),并且我有一个无关的地理参考多边形数据集(下图,大约40k,下图),当前都是Panda DataF…
使用SSIS或SQL将多个CSV文件加入单个表
SSIS初学者,在过去十年中,在GitHub中遵循编码语言性能的项目。我有3个数据集: REPOS 拉请求 问题。 问题数据集如下: 的示例,这是repos dataset …
火花: - 在Spark中处理300 GB数据的空闲参数可能是什么
要处理300 GB数据,请您提供以下数字。 作业读取数据,制作数据框,应用一些过滤器和聚合并写入数据 我的数据群,使用640 gm RAM和160个内核。 (10个…
我们如何在Scala中同时运行多个功能?
这是我试图编写的Scala代码,用于与两个不同的参数同时多次处理功能。但是,我注意到这些功能是由一个一个,而不是同时执行的。 class Method1 extend…
Django:每天查看具有数万观看次数的跟踪数据
我有一个带有Postgres后端的Django应用程序。用户可以发表帖子并查看它们。 “景色”坐在每天的高数十万,每天总计100k+。我们想跟踪视图,以便我们可…
根据使用Python,根据条件读取可变块中的巨大文件
我需要阅读一个与S3的巨大管道分离的文件,其中包含以下内容: Q|A|1|X 78|WQ| 123|ABC Q|V|5|Y LK|HJ| BG|78 我想以这样的方式读取文件:( 1|Q|A|1|…
按行读取行,并将匹配列保存到新文档python -beginne
我需要说我是编码的初学者,如果您经验丰富,这很容易,但是我找不到与我的任何问题,所以我要在这里发送。 我有一个庞大的文档(〜40 GB),这是一个…