bigdata

bigdata

文章 0 浏览 5

根据相等的列值添加另一列

PySpark:可能是重复的,找不到类似的问题。 我有一个表 A: a | b | c --------- 1 | 3 | p 2 | 4 | q 3 | 4 | r 4 | 7 | s 和一个表 B: p | q ------…

怼怹恏 2025-01-11 09:25:20 3 0

Databricks 集群阶段未启动

spark.sql( s""" select nb.*, facl_bed.hsid as facl_decn_bed_hsid, facl_bed.bed_day_decn_seq_nbr as facl_decn_bednbr, case when facl_bed.hsid…

季末如歌 2025-01-11 04:47:32 6 0

Spark中显示视图记录总数的结果不正确

要求: 有 3 个数据帧 df1、df2 和 df4 包含一些记录,我们分别从名为“aaa”、“bbb”和“ccc”的数据帧创建了一个临时视图。 还有另一个数据帧 df3 …

烟沫凡尘 2025-01-11 04:29:50 3 0

Pyspark:按多列分组并计算组数

我有一个像这样的数据框: id Name Rank Course 1 S1 21 Physics 2 S2 22 Chemistry 3 S3 24 Math 4 S2 22 English 5 S2 22 Social 6 S1 21 Geography…

怼怹恏 2025-01-11 04:22:04 3 0

累积数万亿个值的分组总和

我有一个数据缩减问题,事实证明该问题很难解决。 本质上,我有一个程序,可以从总共约 6000 万个键的集合中计算键对的增量值(浮点)。该程序将“相…

难理解 2025-01-11 03:36:12 5 0

将文件从 SFTP 递归移动到 S3 并保留结构

我正在尝试将文件从 SFTP 服务器递归移动到 S3,可能使用 boto3。我也想保留文件夹/文件结构。我想这样做: import pysftp private_key = "/mnt/resul…

御守 2025-01-11 01:05:23 5 0

测试类似“%-PAT-[IEG]DR[AVNM]-%”的情况,这是在 sql 中,我想将其转换为 hive

想要添加条件来匹配以 '-PAT' 开头的字母和 [I,E,G] 中的任何 1 个字母,然后再次是强制字母 'DR',最后是配置单元中 [A,V,N,M] 中的任何字母…

蓝咒 2025-01-10 21:29:34 2 0

Pandas 查询多个数据帧

有两个数据框。第一个有合同 ID 号和名称。第二个包含合约 ID 号和交易类型。第一个数据框是 合同 id 名字 姓氏 1 John Smith 2 Rob Brown 3 Rob Brow…

尘世孤行 2025-01-10 13:02:33 2 0

如何对数据帧的每一行执行线性回归

我有一个包含数千行的数据框,但为了简单起见,我们假设它有 10 行。考虑测量几名患者的十种不同蛋白质,平均值列在以下数据框中。 proteins Year.1 Y…

猫九 2025-01-10 09:40:14 3 0

比较两个大的 csv 文件

我正在尝试比较两个大型 CSV 文件(260Gb 和 16GB),我想到了两种方法, 取出特定列(使用列号),附加到新的 csv。我认为它可能会减少大小,然后我…

一桥轻雨一伞开 2025-01-09 19:34:58 3 0

使用 java 的 BiGrams Spark

我已经将句子放入 RDD 中,输出如下所示: RT @DougJ7777:如果英国赢得#Eurovision,那么我们必须重新加入 欧盟。这是规则里的。 #Eurovision2018 RT…

拧巴小姐 2025-01-09 04:58:33 4 0

分段读取 CSV 文件的策略?

我的计算机上有一个中等大小的文件 (4GB CSV),但没有足够的 RAM 来读取该文件(64 位 Windows 上为 8GB)。在过去,我只是将其加载到集群节点上并读…

甜心 2025-01-06 22:18:56 4 0

Hadoop中如何处理每天增加的数据

在Hadoop中如何处理每天增加的数据: 例如: 第一天我可能在某个输入文件夹(例如hadoop/demo)中有100万个文件 第二天在同一个文件夹中,文件可能会…

素罗衫 2025-01-04 06:17:29 5 0

在 R 中对两个大量逻辑向量进行交叉制表的最快方法

对于两个逻辑向量,x和y,长度> 1E8,计算 2x2 交叉表的最快方法是什么? 我怀疑答案是用 C/C++ 编写它,但我想知道 R 中是否有一些东西已经非常聪明…

空气里的味道 2025-01-03 06:55:19 5 0

BigTable 设计 - BigTable 单元格大小的上限

我想知道 BigTable 对单元格内容的大小是否有上限。我所说的 BigTable 单元格是指表中特定列族、特定行和特定时间戳的单元格。如果是,那么上限是多少…

那些过往 2024-12-27 03:54:57 7 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文