第 9 页 - bigdata - 文江博客

bigdata

文章 0 浏览 5

根据相等的列值添加另一列

PySpark：可能是重复的，找不到类似的问题。我有一个表 A: a | b | c --------- 1 | 3 | p 2 | 4 | q 3 | 4 | r 4 | 7 | s 和一个表 B: p | q ------…

怼怹恏 2025-01-11 09:25:20 3 0

Databricks 集群阶段未启动

spark.sql( s""" select nb.*, facl_bed.hsid as facl_decn_bed_hsid, facl_bed.bed_day_decn_seq_nbr as facl_decn_bednbr, case when facl_bed.hsid…

季末如歌 2025-01-11 04:47:32 6 0

Spark中显示视图记录总数的结果不正确

要求：有 3 个数据帧 df1、df2 和 df4 包含一些记录，我们分别从名为“aaa”、“bbb”和“ccc”的数据帧创建了一个临时视图。还有另一个数据帧 df3 …

烟沫凡尘 2025-01-11 04:29:50 3 0

Pyspark：按多列分组并计算组数

我有一个像这样的数据框： id Name Rank Course 1 S1 21 Physics 2 S2 22 Chemistry 3 S3 24 Math 4 S2 22 English 5 S2 22 Social 6 S1 21 Geography…

怼怹恏 2025-01-11 04:22:04 3 0

累积数万亿个值的分组总和

我有一个数据缩减问题，事实证明该问题很难解决。本质上，我有一个程序，可以从总共约 6000 万个键的集合中计算键对的增量值（浮点）。该程序将“相…

难理解 2025-01-11 03:36:12 5 0

将文件从 SFTP 递归移动到 S3 并保留结构

我正在尝试将文件从 SFTP 服务器递归移动到 S3，可能使用 boto3。我也想保留文件夹/文件结构。我想这样做： import pysftp private_key = "/mnt/resul…

御守 2025-01-11 01:05:23 5 0

测试类似“%-PAT-[IEG]DR[AVNM]-%”的情况，这是在 sql 中，我想将其转换为 hive

想要添加条件来匹配以 '-PAT' 开头的字母和 [I,E,G] 中的任何 1 个字母，然后再次是强制字母 'DR'，最后是配置单元中 [A,V,N,M] 中的任何字母…

蓝咒 2025-01-10 21:29:34 2 0

Pandas 查询多个数据帧

有两个数据框。第一个有合同 ID 号和名称。第二个包含合约 ID 号和交易类型。第一个数据框是合同 id 名字姓氏 1 John Smith 2 Rob Brown 3 Rob Brow…

尘世孤行 2025-01-10 13:02:33 2 0

如何对数据帧的每一行执行线性回归

我有一个包含数千行的数据框，但为了简单起见，我们假设它有 10 行。考虑测量几名患者的十种不同蛋白质，平均值列在以下数据框中。 proteins Year.1 Y…

猫九 2025-01-10 09:40:14 3 0

比较两个大的 csv 文件

我正在尝试比较两个大型 CSV 文件（260Gb 和 16GB），我想到了两种方法，取出特定列（使用列号），附加到新的 csv。我认为它可能会减少大小，然后我…

一桥轻雨一伞开 2025-01-09 19:34:58 3 0

使用 java 的 BiGrams Spark

我已经将句子放入 RDD 中，输出如下所示： RT @DougJ7777：如果英国赢得#Eurovision，那么我们必须重新加入欧盟。这是规则里的。 #Eurovision2018 RT…

拧巴小姐 2025-01-09 04:58:33 4 0

分段读取 CSV 文件的策略？

我的计算机上有一个中等大小的文件 (4GB CSV)，但没有足够的 RAM 来读取该文件（64 位 Windows 上为 8GB）。在过去，我只是将其加载到集群节点上并读…

甜心 2025-01-06 22:18:56 4 0

Hadoop中如何处理每天增加的数据

在Hadoop中如何处理每天增加的数据：例如：第一天我可能在某个输入文件夹（例如hadoop/demo）中有100万个文件第二天在同一个文件夹中，文件可能会…

素罗衫 2025-01-04 06:17:29 5 0

在 R 中对两个大量逻辑向量进行交叉制表的最快方法

对于两个逻辑向量，x和y，长度> 1E8，计算 2x2 交叉表的最快方法是什么？我怀疑答案是用 C/C++ 编写它，但我想知道 R 中是否有一些东西已经非常聪明…

空气里的味道 2025-01-03 06:55:19 5 0

BigTable 设计 - BigTable 单元格大小的上限

我想知道 BigTable 对单元格内容的大小是否有上限。我所说的 BigTable 单元格是指表中特定列族、特定行和特定时间戳的单元格。如果是，那么上限是多少…

那些过往 2024-12-27 03:54:57 7 0

共 12 页
上一页
7
8
9
10
11
下一页

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

bigdata

根据相等的列值添加另一列

Databricks 集群阶段未启动

Spark中显示视图记录总数的结果不正确

Pyspark：按多列分组并计算组数

累积数万亿个值的分组总和

将文件从 SFTP 递归移动到 S3 并保留结构

测试类似“%-PAT-[IEG]DR[AVNM]-%”的情况，这是在 sql 中，我想将其转换为 hive

Pandas 查询多个数据帧

如何对数据帧的每一行执行线性回归

比较两个大的 csv 文件

使用 java 的 BiGrams Spark

分段读取 CSV 文件的策略？

Hadoop中如何处理每天增加的数据

在 R 中对两个大量逻辑向量进行交叉制表的最快方法

BigTable 设计 - BigTable 单元格大小的上限

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接