第 7 页 - bigdata - 文江博客

投稿关注

bigdata

文章 0 浏览 5

对于多行函数（i+1）？

对于R，如果有一个简单的答案我不知道，我很抱歉。我有一个带有127.124观测值的数据框和5个变量头（SortedDF）， number Retention.time..min. Char…

爱冒险 2025-01-17 20:04:06 2 0

蜂巢桌许可

我有一个敏感的 Hive 表，如何防止授权用户复制（另一个 Hive 表）并与其他人共享新创建的表？（非授权用户）…

篱下浅笙歌 2025-01-17 09:04:56 2 0

Pyspark 流式处理 CPU 利用率低

我正在尝试使用 python 中的 Spark 流在流上运行一些处理。该流每秒给出 2000 个数据点，并且处理应该每 4 秒给出一次结果 (slideDuration=4)，但实…

智商已欠费 2025-01-17 07:34:42 2 0

SQL：全文索引以提高速度

超过一千万行，速度慢得令人痛苦。目前使用“LIKE”来计算点击次数： SELECT COUNT(*) FROM `table` WHERE `job` LIKE '%sales%' AND `location` LIKE…

忆悲凉 2025-01-17 05:36:14 3 0

Ggplot 没有为火山图标记所有有趣的肽

我有一个包含 2479 个肽及其序列、p 值和对数倍变化的数据框。 # A tibble: 6 x 3 Sequence p log2fold 1 FLENEDR 0.343 1.21 2 DTEEEDFHVDQATTVK 0.2…

泡沫很甜 2025-01-17 00:43:29 2 0

如何在 Gephi 中打开超过 30.000 个节点的网络

我在 Windows 10（64x，8Gb RAM）中运行 Gephi 0.9.2，在 30.000 个节点以下的网络中性能正常。当我尝试使用更大的数据集时，程序就会崩溃。有时在程…

雄赳赳气昂昂 2025-01-16 18:59:21 4 0

针对单一记录的 Unnest 查询优化

我正在尝试优化我的查询，以防止内部客户只想返回一个结果*（及其关联的嵌套数据集）。我的目标是减少查询过程的大小。然而，无论我查询的是 1 条记…

不气馁 2025-01-16 16:10:50 3 0

SQL HIVE 转换

我正在尝试将一段 SQL 代码转换为 HiveQL，但它没有按预期工作。请在下面找到我尝试转换的 SQL 代码片段： SQL 代码： UPDATE C SET C.prod_l = P.pr…

眼泪淡了忧伤 2025-01-16 13:18:00 4 0

根据列名称模式重塑大数据

我有一个（实际上很大）包含街道街区的数据集；它具有该街区的开始（“从”，在下面的变量中）和结束（“到”）的门牌号，无论是右侧还是左侧。这是一…

一刻暧昧 2025-01-16 12:07:06 4 0

如何有效地迭代具有数百万行的 pandas 数据集并将函数传递给每一行？

我有一个 pandas 数据框，其中包含 700 万个飞行数据实例。航班数据带有我用来获取当时天气的位置和时间。目前，对于 1000 个实例，我的代码花费了 83…

梦一生花开无言 2025-01-16 02:07:02 2 0

使用咖啡因将数据缓存到本地硬盘？

我正在开发一个分布式应用程序，它从全局 redis 缓存中检索数据，并使用咖啡因。据我了解，咖啡因旨在将数据缓存在内存（RAM）而不是硬盘中。虽然我…

沉溺在你眼里的海 2025-01-15 21:54:30 4 0

在 Talend Open Studio 8.x 中创建具有外键输出的 SQL Server 表

我正在使用 Talend 将一张表从一台 SQL Server（源）迁移到另一台 SQL Server（目标）。源表没有任何索引。我想在目标表添加一些索引。在 Talend st…

阳光的暖冬 2025-01-15 12:19:31 5 0

Flink-如何在flink sinkfunction中查找java包下的所有类

如何在flink sinkfunction中查找java包下的所有类？在 SinkFunction 中运行这些代码时我什么也没得到。请参阅以下代码 public Set findAllClassesUsin…

待＂谢繁草 2025-01-15 07:48:03 3 0

循环遍历文件并使用函数，然后使用该结果在 r 中形成数据帧

我有一个已排序的 bam 文件目录，我想对其使用 pileup 函数。 pileup 函数的输出是一个数据帧。然后我想使用每个文件的结果并形成一个数据框。对于每…

如日中天 2025-01-14 23:41:39 2 0

Spark 任务读取超过 128MB 的块大小？这怎么可能？

我加载了 9.4 GB 的文件，因此它创建了 74 个分区，这是正确的 (74 * 128MB = 9472)。但我发现很少有任务读取超过 128MB 的数据，例如 160MB 等，如下…

追我者格杀勿论 2025-01-14 21:20:55 3 0

共 12 页
上一页
5
6
7
8
9
下一页

友情链接

文江博客