bigdata

bigdata

文章 0 浏览 5

为什么在HBase中不可能进行聚合?

我想知道为什么 HBase 本身不支持诸如 SUM / AVG 之类的聚合操作。我了解到有几种解决方法可以实现相同的目的,但是虽然有这些解决方法,但为什么 HBa…

素染倾城色 2025-01-20 17:50:01 2 0

从R中获取API的随机样品?

我有一个班级小组项目,我们需要创建一个闪亮的应用程序。我们要使用的数据来自 NYC OpenData,它包含 6M 条记录。我们只想从中获取随机样本。我最初…

孤单情人 2025-01-20 17:04:00 2 0

当没有明显的分区列时,将火花窗口与多个分区使用

这是场景。假设我有下表: 标识符 行 51169081604 2 00034886044 22 51168939455 52 52 对于每个列 line ,选择下一个最大的列 line line ,我通过以…

无声情话 2025-01-20 12:42:43 2 0

(python)QuickSort为有序数据工作,但不为无序数据

我正在努力在Python实施递归QuickSort。我正在使用非常大的数据集(10,000-1,000,000个元素)。喂食时,它订购了数据(即更改一个阵列从最大的 - &gt…

笛声青案梦长安 2025-01-20 08:37:35 3 0

如何使用Spark中的IF语句删除RDD的列(使用Scala)

假设我有一个文本文件,每个条目都有几百个数据点。我想摆脱具有问号的任何列 - 使用掉落功能,然后挑选出来似乎很乏味。有更快的方法吗? dataframe.…

韬韬不绝 2025-01-20 05:08:27 5 0

python in Loop循环为列表中的每个对象循环5次

所以我有一个大的 JSON 数组,看起来像这样: [ { "name": "(((", "handle": "/handle/20.500.12657/50523" }, { "name": "01 Contents; Indian Recor…

甜柠檬 2025-01-19 23:09:19 2 0

Pandas -MemoryError:无法分配220。MIB

因此,我有一个订单数据框,以订单日期为索引,我对其进行了设置: df = df.set_index('ORDER_ENTRY_DATE', drop=False) 在下面的代码中,我创建了一…

假情假意假温柔 2025-01-19 15:18:29 2 0

使用 AWS Glue 在两个 S3 存储桶之间加载数据时如何更新数据?

这是我的第一个数据分析项目,我正在 AWS 上开发数据管道,管道步骤应如下所示: 以 parquet 格式将数据从 RDS 导出到 S3(完成)。 使用 Athena 查询…

疯到世界奔溃 2025-01-19 11:26:51 4 0

将大量数据从 Snowflake 数据库提取到 AWS SageMaker 的最快方法是什么?

从Snowflake中将非常大的数据集从AWS中吸入我的SageMaker实例的最快方法是什么?雪花python连接器(我目前使用的内容)与雪花连接器相比如何?…

音盲 2025-01-19 10:28:24 5 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值,但是当我将其写入磁盘时,它将布尔值 (true,false) 转换为 null。 这是代…

烟沫凡尘 2025-01-19 08:02:31 2 0

尼菲。未完成的 HTTP 请求太多,总共有 100 个未完成的请求

每次我尝试登录 apache NiFi 时,都会遇到 There are too much Outstanding HTTP requests with a total 100 Outstanding requests 错误,有时当我在…

独闯女儿国 2025-01-19 02:25:06 2 0

如何使用Spark.sql.dataframe使用Python库可视化大数据?

我在使用matplotlib可视化数据方面存在问题,我的项目用于BigData Analytics,现在我有一个Spark DataFrame具有结果,但是当我想将此DF转换为PANDAS.D…

风苍溪 2025-01-19 00:21:08 1 0

Python:在非常大的文件夹中查找文件(超过100 TB)

我正在开发一个程序,该程序将编目软件(Rucio)中的条目与存储中的文件进行比较。从编目中,我得到了它认为文件存储位置的路径。然后,我在该位置搜…

茶花眉 2025-01-18 05:10:33 3 0

计算 1 行大文件中的字符

我正在使用一个庞大的文件(4 GB)。该文件没有常规的行定界符。线定界符不是\ n或这样的,而是一堆字符(#@#@#)。 在这个烦人的文件上,我想计算…

瀞厅☆埖开 2025-01-18 02:26:11 4 0

df.count() 对我不起作用,我该怎么办?

我使用pyspark进行情感分析项目,当我进行数据预处理等时,我使用textblob来查看Tweet的情感,我得到了结果,然后将其转换为DF, # Convert RDD Back …

梦幻的味道 2025-01-17 21:50:34 2 0
更多

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文