bigdata

投稿关注

文章 0 浏览 5

dask花费太长加载和处理100 GB文件

我想加载两个文件（4.7 GB和126 GB）。 126 GB文件具有很多冗余数据，因此我使用正则表达式匹配来删除数据。之后，我将这些文件通过5列合并。我正在使…

烏雲後面有陽光 2025-02-14 00:12:05 0 0

在NIFI中将XML分配后，如何将流file名称更改为XML行？

我使用 splitxml -processor将大型XML文件分为237个较小的文件。作为一个基础，我使用了根源的孩子。现在，我想将每个结果文件作为文件名将相应的XML…

是你 2025-02-13 14:14:31 0 0

是否有建议在PostgreSQL中进行分区的表尺寸？

我在AWS中使用了RDS Aurora posttresql。我管理的数据大小和行的数量太大（70亿行和4TB），因此我正在考虑使用表分区。（我还考虑了Postgresql的Cit…

萌辣 2025-02-13 11:11:23 0 0

SQLite分析大表格

我的桌子大小为649876358线。我需要在列中获取具有重复值的所有行，并在另一个文件中写入每个组，但是sqlite工作非常慢（10分钟后，没有一个组未写）…

轻拂→两袖风尘 2025-02-13 00:34:12 0 0

如何将非常大的字典写入JSON文件？

请告诉我我在做什么错。我想从大量数据中创建一个字典。我有一个包含125,000个唯一单词的200,000篇文章的文件，看起来像这样： data = [[['article_1'…

尽揽少女心 2025-02-12 18:49:28 0 0

SageMaker实例错误：[ERRNO 28]设备上没有剩余的空间

我终于设法使用DASK培训了一个使用大数据的回归模型，现在我遇到了这个错误，我不确定该怎么办，因为我没有看到萨格马制造商实例的任何直接解决方案。…

何其悲哀 2025-02-12 08:57:14 2 0

熊猫负载和汇总大数据

我有一个近4〜6m行的数据框，这需要很多记忆才能加载。如果我只是一个一个人阅读并处理数据，那就可以了，但是问题是我需要汇总数据。（例如总和或平…

绻影浮沉 2025-02-12 05:15:18 0 0

MongoDB不将索引用于时间序列数据

我是MongoDB和NOSQL的新手，我正在尝试在一个庞大的数据集（约5000万个文档）上运行查询，我正在使用64 GB RAM的Windows 10主机上运行最新版本的Mong…

小嗷兮 2025-02-10 05:35:35 1 0

如何使用unix中的split命令动态地将大型CSV文件拆分为125MB-1000MB小型CSV文件

我试图将大型CSV文件拆分为小型CSV文件具有125MB至1GB。如果我们给出数量的拆分命令每个文件记录它将分开，但我想获得该行计数动态基于文件大小。…

汐鸠 2025-02-09 23:20:19 2 0

我如何找到正确的数据设计和正确的工具/数据库/查询以下要求

我有一种要求，但无法弄清楚如何解决。我的数据集的格式以下 id, atime, grade 123, time1, A 241, time2, B 123, time3, C 或列出列表格式： [[123,t…

红ご颜醉 2025-02-09 21:36:18 1 0

用几个大型CSV文件培训模型

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题吗？更新该问题，以便可以通过闭合 2年前。…

梦幻之岛 2025-02-09 20:16:02 1 0

在Python Pandas中指定多指数标头时，请使用USECOL

我有一个庞大的数据可以根据两个标头读取，但是当我使用多指数方法时，我无法在pandas dataframe中使用“ usecols”。当我使用 df = pd.read_csv(fil…

黒涩兲箜 2025-02-09 09:24:45 1 0

HBASE区域分裂出乎意料，每个区域大小小于1g

hbase.hregion.max.filesize 是10g。拆分策略是 SteppingsPlitPolicy 。该表由Phoenix与 salt_buckets = 6 创建。根据 steppingsplitpolicy 的源…

谈情不如逗狗 2025-02-08 10:11:48 2 0

如何解决错误：“ Excel范围的大小不良。它必须只有1行或1行。

如何解决此错误？ “ Excel范围的大小不良。它必须只有1行或1行。”从CPLEX带有.csv格式的大数据的此错误发生了。…

情痴 2025-02-08 07:46:49 0 0

如何使用具有多个隐式反馈的ALS？

在pyspark在此文档中给出的ALS示例中 - ）所使用的数据在一列中具有明确的反馈。数据就是这样： |用户|项目|评分| | --- | --- | --- | |第一| A | 2 …

但可醉心 2025-02-08 07:02:58 0 0

共 12 页
1
2
3
4
5
下一页

友情链接

文江博客

bigdata

dask花费太长加载和处理100 GB文件

在NIFI中将XML分配后，如何将流file名称更改为XML行？

是否有建议在PostgreSQL中进行分区的表尺寸？

SQLite分析大表格

如何将非常大的字典写入JSON文件？

SageMaker实例错误：[ERRNO 28]设备上没有剩余的空间

熊猫负载和汇总大数据

MongoDB不将索引用于时间序列数据

如何使用unix中的split命令动态地将大型CSV文件拆分为125MB-1000MB小型CSV文件

我如何找到正确的数据设计和正确的工具/数据库/查询以下要求

用几个大型CSV文件培训模型

在Python Pandas中指定多指数标头时，请使用USECOL

HBASE区域分裂出乎意料，每个区域大小小于1g

如何解决错误：“ Excel范围的大小不良。它必须只有1行或1行。

如何使用具有多个隐式反馈的ALS？

热门标签

推荐作者

qq_aHcEbj

qq_ikhFfg

寻找我们的幸福

把昨日还给我

wj_zym

巴黎夜雨

友情链接