第 2 页 - bigdata - 文江博客

投稿关注

bigdata

文章 0 浏览 5

如何在MongoDB上特征16.4亿记录？

我想在MongoDB上进行大量数据，我想将它们进行比较，但是该过程需要一些合乎逻辑的方面来实现目标，我知道使用Java为案例使用似乎很复杂吗？美国案例…

意中人 2025-02-08 05:30:39 0 0

可以在不读取所有内容的情况下读取Parquet文件的前一部分。

假设我们有一个具有一些列和行的镶木quet文件（或其他任何文件）p。文件p的列只有一个名为a的列，该列仅具有0或1。此外，行具有A列AS 0仅是该文件的1…

后来的我们 2025-02-07 23:44:23 0 0

什么是检查大型阵列在Python中是否相同的最快方法？

我正在使用采用两种形式的大型数据集。一组.TIFF文件（即2048 x 2048 .TIFF图像的2000个文件），其中包含一个〜2000x2048x2048数组。我正在编写代…

小情绪 2025-02-07 22:01:59 0 0

在PostgreSQL数据库中更新约1亿行的最有效方法？

我有一个带有单个表的数据库。该表将需要每隔几周更新一次。我们需要将第三方数据摄入其中，它将包含100-1.2亿行。因此，基本上是：从源检测插入，…

苍景流年 2025-02-07 21:43:46 1 0

仅保留在行或另一行r中具有重复的值

我正在尝试确定我的数据框架中的以太坊地址，这些地址不仅是买家，而且是卖方。数据框架由具有以下变量的交易组成：哈希，卖方，买方，Ethamount，买…

屌丝范 2025-02-07 19:26:31 1 0

如何在不转换为null的情况下将空字符串插入Amazon Redshift中？

我正在尝试使用Pipe定界符CSV文件在RedShift中使用复制命令加载数据，而加载 || empty正在按照我的意愿转换为null，但是 |“” | 也转换为零。我该如…

拿命拼未来 2025-02-07 13:12:58 1 0

在一个组中：如何过滤列的最大

Imagen代码我有一个电影基础，我在学期之前进行了分组，但我只需要显示该群体中最高的电影。（最大收入'）另外，我需要以图形方式显示它，该怎么…

一张白纸 2025-02-07 07:34:51 1 0

左连接条件，并使用Spark Python / Pyspark聚合最大

我拥有的： 2个大量火花数据框架，但这里有一些示例数据框架： ID IG OPENDATE P111 100 13/04/2022 P222 101 16/04/2022 P333 102 20/04/2022 DATAF…

南城旧梦 2025-02-07 06:43:46 1 0

MySQL选择计数（1）语句在桌上太慢，数百万行

以下语句需要0.73秒，并产生54,000个结果： SELECT COUNT(1) FROM `table` WHERE MATCH(tagline, location, country) AGAINST(' +Germany' IN BOOLEAN…

原来是傀儡 2025-02-06 23:04:16 2 0

Pyspark如何在设置为true时自动确定列的数据类型，后台会发生什么

根据文档， Inferschema：自动进化列类型。需要一个额外的传递数据，默认情况下是错误的，我知道Spark将读取CSV以确定数据类型并相应地分配。我很…

喜爱纠缠 2025-02-06 20:43:49 2 0

替换pyspark数据集的循环

我有具有不同2个架构的数据帧，因此要在我使用的每个数据集上应用架构，例如： disDF = orgDF.distinct('col1','col2').collect() for row in disDF: …

压抑⊿情绪 2025-02-06 18:44:53 3 0

在Elasticsearch上保存数据的最佳模型是什么？

我有铁轨应用程序，并将弹性搜索用作我的Rails应用程序中的搜索引擎。该应用程序从移动应用程序中收集数据，并且可以从任何类型的移动应用程序中收集…

草莓味的萝莉 2025-02-06 12:12:08 2 0

从字符串列中提取多种模式之一

我在一个非常大的数据框架中有一个字符串列，需要根据几种模式提取字符串的一部分。在此步骤中，一场比赛就足够了，我不想找到所有匹配的案例。这是一…

南冥有猫 2025-02-06 08:36:14 1 0

使用pandas.melt用于大数据框架

我在某个时候使用pd.融合来重塑我的数据框架。检查后的此命令需要大约7分钟的时间才能运行，这在我的用例中太长（我在交互式仪表板上使用）。我问是…

再见回来 2025-02-05 07:31:49 1 0

SQL查询速度：仅查询数据库的一部分来估算匹配

MySQL数据库中的一千万行数据。试图通过估计结果数而不是提供确切的数字来提高速度（例如某些搜索引擎）。尝试通过获取每10行数据，然后将输出乘以10…

橘虞初梦 2025-02-04 19:28:04 1 0

共 11 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客