第 6 页 - bigdata - 文江博客

投稿关注

bigdata

文章 0 浏览 5

为什么在HBase中不可能进行聚合？

我想知道为什么 HBase 本身不支持诸如 SUM / AVG 之类的聚合操作。我了解到有几种解决方法可以实现相同的目的，但是虽然有这些解决方法，但为什么 HBa…

素染倾城色 2025-01-20 17:50:01 2 0

从R中获取API的随机样品？

我有一个班级小组项目，我们需要创建一个闪亮的应用程序。我们要使用的数据来自 NYC OpenData，它包含 6M 条记录。我们只想从中获取随机样本。我最初…

孤单情人 2025-01-20 17:04:00 2 0

当没有明显的分区列时，将火花窗口与多个分区使用

这是场景。假设我有下表：标识符行 51169081604 2 00034886044 22 51168939455 52 52 对于每个列 line ，选择下一个最大的列 line line ，我通过以…

无声情话 2025-01-20 12:42:43 2 0

（python）QuickSort为有序数据工作，但不为无序数据

我正在努力在Python实施递归QuickSort。我正在使用非常大的数据集（10,000-1,000,000个元素）。喂食时，它订购了数据（即更改一个阵列从最大的 - ＆gt…

笛声青案梦长安 2025-01-20 08:37:35 3 0

如何使用Spark中的IF语句删除RDD的列（使用Scala）

假设我有一个文本文件，每个条目都有几百个数据点。我想摆脱具有问号的任何列 - 使用掉落功能，然后挑选出来似乎很乏味。有更快的方法吗？ dataframe.…

韬韬不绝 2025-01-20 05:08:27 5 0

python in Loop循环为列表中的每个对象循环5次

所以我有一个大的 JSON 数组，看起来像这样： [ { "name": "(((", "handle": "/handle/20.500.12657/50523" }, { "name": "01 Contents; Indian Recor…

甜柠檬 2025-01-19 23:09:19 2 0

Pandas -MemoryError：无法分配220。MIB

因此，我有一个订单数据框，以订单日期为索引，我对其进行了设置： df = df.set_index('ORDER_ENTRY_DATE', drop=False) 在下面的代码中，我创建了一…

假情假意假温柔 2025-01-19 15:18:29 2 0

使用 AWS Glue 在两个 S3 存储桶之间加载数据时如何更新数据？

这是我的第一个数据分析项目，我正在 AWS 上开发数据管道，管道步骤应如下所示：以 parquet 格式将数据从 RDS 导出到 S3（完成）。使用 Athena 查询…

疯到世界奔溃 2025-01-19 11:26:51 4 0

将大量数据从 Snowflake 数据库提取到 AWS SageMaker 的最快方法是什么？

从Snowflake中将非常大的数据集从AWS中吸入我的SageMaker实例的最快方法是什么？雪花python连接器（我目前使用的内容）与雪花连接器相比如何？…

音盲 2025-01-19 10:28:24 5 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值，但是当我将其写入磁盘时，它将布尔值 (true,false) 转换为 null。这是代…

烟沫凡尘 2025-01-19 08:02:31 2 0

尼菲。未完成的 HTTP 请求太多，总共有 100 个未完成的请求

每次我尝试登录 apache NiFi 时，都会遇到 There are too much Outstanding HTTP requests with a total 100 Outstanding requests 错误，有时当我在…

独闯女儿国 2025-01-19 02:25:06 2 0

如何使用Spark.sql.dataframe使用Python库可视化大数据？

我在使用matplotlib可视化数据方面存在问题，我的项目用于BigData Analytics，现在我有一个Spark DataFrame具有结果，但是当我想将此DF转换为PANDAS.D…

风苍溪 2025-01-19 00:21:08 1 0

Python：在非常大的文件夹中查找文件（超过100 TB）

我正在开发一个程序，该程序将编目软件（Rucio）中的条目与存储中的文件进行比较。从编目中，我得到了它认为文件存储位置的路径。然后，我在该位置搜…

茶花眉 2025-01-18 05:10:33 3 0

计算 1 行大文件中的字符

我正在使用一个庞大的文件（4 GB）。该文件没有常规的行定界符。线定界符不是\ n或这样的，而是一堆字符（＃@＃@＃）。在这个烦人的文件上，我想计算…

瀞厅☆埖开 2025-01-18 02:26:11 4 0

df.count() 对我不起作用，我该怎么办？

我使用pyspark进行情感分析项目，当我进行数据预处理等时，我使用textblob来查看Tweet的情感，我得到了结果，然后将其转换为DF， # Convert RDD Back …

梦幻的味道 2025-01-17 21:50:34 2 0

共 12 页
上一页
4
5
6
7
8
下一页

友情链接

文江博客