bigdata

bigdata

文章 0 浏览 5

对于多行函数(i+1)?

对于R,如果有一个简单的答案我不知道,我很抱歉。 我有一个带有127.124观测值的数据框和5个变量 头(SortedDF), number Retention.time..min. Char…

爱冒险 2025-01-17 20:04:06 2 0

蜂巢桌许可

我有一个敏感的 Hive 表,如何防止授权用户复制(另一个 Hive 表)并与其他人共享新创建的表? (非授权用户)…

篱下浅笙歌 2025-01-17 09:04:56 2 0

Pyspark 流式处理 CPU 利用率低

我正在尝试使用 python 中的 Spark 流在流上运行一些处理。 该流每秒给出 2000 个数据点,并且处理应该每 4 秒给出一次结果 (slideDuration=4),但实…

智商已欠费 2025-01-17 07:34:42 2 0

SQL:全文索引以提高速度

超过一千万行,速度慢得令人痛苦。目前使用“LIKE”来计算点击次数: SELECT COUNT(*) FROM `table` WHERE `job` LIKE '%sales%' AND `location` LIKE…

忆悲凉 2025-01-17 05:36:14 3 0

Ggplot 没有为火山图标记所有有趣的肽

我有一个包含 2479 个肽及其序列、p 值和对数倍变化的数据框。 # A tibble: 6 x 3 Sequence p log2fold 1 FLENEDR 0.343 1.21 2 DTEEEDFHVDQATTVK 0.2…

泡沫很甜 2025-01-17 00:43:29 2 0

如何在 Gephi 中打开超过 30.000 个节点的网络

我在 Windows 10(64x,8Gb RAM)中运行 Gephi 0.9.2,在 30.000 个节点以下的网络中性能正常。当我尝试使用更大的数据集时,程序就会崩溃。有时在程…

雄赳赳气昂昂 2025-01-16 18:59:21 4 0

针对单一记录的 Unnest 查询优化

我正在尝试优化我的查询,以防止内部客户只想返回一个结果*(及其关联的嵌套数据集)。我的目标是减少查询过程的大小。 然而,无论我查询的是 1 条记…

不气馁 2025-01-16 16:10:50 3 0

SQL HIVE 转换

我正在尝试将一段 SQL 代码转换为 HiveQL,但它没有按预期工作。 请在下面找到我尝试转换的 SQL 代码片段: SQL 代码: UPDATE C SET C.prod_l = P.pr…

眼泪淡了忧伤 2025-01-16 13:18:00 4 0

根据列名称模式重塑大数据

我有一个(实际上很大)包含街道街区的数据集;它具有该街区的开始(“从”,在下面的变量中)和结束(“到”)的门牌号,无论是右侧还是左侧。这是一…

一刻暧昧 2025-01-16 12:07:06 4 0

如何有效地迭代具有数百万行的 pandas 数据集并将函数传递给每一行?

我有一个 pandas 数据框,其中包含 700 万个飞行数据实例。航班数据带有我用来获取当时天气的位置和时间。目前,对于 1000 个实例,我的代码花费了 83…

梦一生花开无言 2025-01-16 02:07:02 2 0

使用咖啡因将数据缓存到本地硬盘?

我正在开发一个分布式应用程序,它从全局 redis 缓存中检索数据,并使用 咖啡因。据我了解,咖啡因旨在将数据缓存在内存(RAM)而不是硬盘中。 虽然我…

沉溺在你眼里的海 2025-01-15 21:54:30 4 0

在 Talend Open Studio 8.x 中创建具有外键输出的 SQL Server 表

我正在使用 Talend 将一张表从一台 SQL Server(源)迁移到另一台 SQL Server(目标)。 源表没有任何索引。我想在目标表添加一些索引。 在 Talend st…

阳光的暖冬 2025-01-15 12:19:31 5 0

Flink-如何在flink sinkfunction中查找java包下的所有类

如何在flink sinkfunction中查找java包下的所有类?在 SinkFunction 中运行这些代码时我什么也没得到。请参阅以下代码 public Set findAllClassesUsin…

待"谢繁草 2025-01-15 07:48:03 3 0

循环遍历文件并使用函数,然后使用该结果在 r 中形成数据帧

我有一个已排序的 bam 文件目录,我想对其使用 pileup 函数。 pileup 函数的输出是一个数据帧。然后我想使用每个文件的结果并形成一个数据框。 对于每…

如日中天 2025-01-14 23:41:39 2 0

Spark 任务读取超过 128MB 的块大小?这怎么可能?

我加载了 9.4 GB 的文件,因此它创建了 74 个分区,这是正确的 (74 * 128MB = 9472)。但我发现很少有任务读取超过 128MB 的数据,例如 160MB 等,如下…

追我者格杀勿论 2025-01-14 21:20:55 3 0
更多

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文