bigdata

bigdata

文章 0 浏览 5

dask花费太长加载和处理100 GB文件

我想加载两个文件(4.7 GB和126 GB)。 126 GB文件具有很多冗余数据,因此我使用正则表达式匹配来删除数据。之后,我将这些文件通过5列合并。我正在使…

烏雲後面有陽光 2025-02-14 00:12:05 0 0

在NIFI中将XML分配后,如何将流file名称更改为XML行?

我使用 splitxml -processor将大型XML文件分为237个较小的文件。作为一个基础,我使用了根源的孩子。 现在,我想将每个结果文件作为文件名将相应的XML…

是你 2025-02-13 14:14:31 0 0

是否有建议在PostgreSQL中进行分区的表尺寸?

我在AWS中使用了RDS Aurora posttresql。 我管理的数据大小和行的数量太大(70亿行和4TB),因此我正在考虑使用表分区。 (我还考虑了Postgresql的Cit…

萌辣 2025-02-13 11:11:23 0 0

SQLite分析大表格

我的桌子大小为649876358线。我需要在列中获取具有重复值的所有行,并在另一个文件中写入每个组,但是sqlite工作非常慢(10分钟后,没有一个组未写)…

轻拂→两袖风尘 2025-02-13 00:34:12 0 0

如何将非常大的字典写入JSON文件?

请告诉我我在做什么错。我想从大量数据中创建一个字典。我有一个包含125,000个唯一单词的200,000篇文章的文件,看起来像这样: data = [[['article_1'…

尽揽少女心 2025-02-12 18:49:28 0 0

SageMaker实例错误:[ERRNO 28]设备上没有剩余的空间

我终于设法使用DASK培训了一个使用大数据的回归模型,现在我遇到了这个错误,我不确定该怎么办,因为我没有看到萨格马制造商实例的任何直接解决方案。…

何其悲哀 2025-02-12 08:57:14 2 0

熊猫负载和汇总大数据

我有一个近4〜6m行的数据框,这需要很多记忆才能加载。如果我只是一个一个人阅读并处理数据,那就可以了,但是问题是我需要汇总数据。 (例如总和或平…

绻影浮沉 2025-02-12 05:15:18 0 0

MongoDB不将索引用于时间序列数据

我是MongoDB和NOSQL的新手,我正在尝试在一个庞大的数据集(约5000万个文档)上运行查询, 我正在使用64 GB RAM的Windows 10主机上运行最新版本的Mong…

小嗷兮 2025-02-10 05:35:35 1 0

如何使用unix中的split命令动态地将大型CSV文件拆分为125MB-1000MB小型CSV文件

我试图将大型CSV文件拆分为小型CSV文件 具有125MB至1GB。如果我们给出数量的拆分命令 每个文件记录它将分开,但我想获得该行计数 动态基于文件大小。…

汐鸠 2025-02-09 23:20:19 2 0

我如何找到正确的数据设计和正确的工具/数据库/查询以下要求

我有一种要求,但无法弄清楚如何解决。我的数据集的格式以下 id, atime, grade 123, time1, A 241, time2, B 123, time3, C 或列出列表格式: [[123,t…

红ご颜醉 2025-02-09 21:36:18 1 0

用几个大型CSV文件培训模型

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题吗?更新该问题,以便可以通过 闭合 2年前。…

梦幻之岛 2025-02-09 20:16:02 1 0

在Python Pandas中指定多指数标头时,请使用USECOL

我有一个庞大的数据可以根据两个标头读取,但是当我使用多指数方法时,我无法在pandas dataframe中使用“ usecols”。 当我使用 df = pd.read_csv(fil…

黒涩兲箜 2025-02-09 09:24:45 1 0

HBASE区域分裂出乎意料,每个区域大小小于1g

hbase.hregion.max.filesize 是10g。 拆分策略是 SteppingsPlitPolicy 。 该表由Phoenix与 salt_buckets = 6 创建。 根据 steppingsplitpolicy 的源…

谈情不如逗狗 2025-02-08 10:11:48 2 0

如何解决错误:“ Excel范围的大小不良。它必须只有1行或1行。

如何解决此错误? “ Excel范围的大小不良。它必须只有1行或1行。”从CPLEX带有.csv格式的大数据的此错误发生了。…

情痴 2025-02-08 07:46:49 0 0

如何使用具有多个隐式反馈的ALS?

在pyspark在此文档中给出的ALS示例中 - )所使用的数据在一列中具有明确的反馈。数据就是这样: |用户|项目|评分| | --- | --- | --- | |第一| A | 2 …

但可醉心 2025-02-08 07:02:58 0 0
更多

推荐作者

qq_aHcEbj

文章 0 评论 0

qq_ikhFfg

文章 0 评论 0

把昨日还给我

文章 0 评论 0

wj_zym

文章 0 评论 0

巴黎夜雨

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文