spark-streaming

spark-streaming

文章 22 浏览 13

Spark StreamingContext

我在运行 Spark Streaming 时遇到问题。有人可以帮我吗? …

吻安 2025-01-16 00:54:06 1 0

如何使用 Scala 将表更快地加载到 Spark 数据帧中?

我编写了一个代码,该代码应该使用 Spark 将许多表(通过 LTables 方法列出)加载到 Scala 中的不同数据帧中。 这是我的代码: LTables.iterator.fore…

何以笙箫默 2025-01-15 16:29:41 1 0

在 Spark 结构化流中解释数组 JSON 中的数据帧

我的数据框中有一列下面的 json 字符串,如何分解/压平它以获得单级数据框? 目前的模式是 df |-json_data (StringType) 如何拥有以下模式的 df ? df…

生死何惧 2025-01-14 09:34:20 2 0

在 Spark 结构化流中计算滑动窗口中的多个聚合

我有一个流源,它发送事件,其中每条记录由 3 个字段组成(CreationTime、FP、Detected) 这里,“FP”代表误报。 “FP”和“检测到”字段的值可以为 …

近箐 2025-01-14 02:42:23 1 0

Spark中的saveAasTable和save有什么区别

我正在使用 Pyspark,并且想要将分区插入并覆盖到现有的配置单元表中。 在这个用例中 saveAsTable() 不合适,它会覆盖整个现有表 insertInto() 的行为…

不甘平庸 2025-01-13 09:56:10 2 0

“记录并跳过”的正确方法是什么? Spark-Streaming 中经过验证的转换

我有一个火花流应用程序,我想在主要操作之前进行一些数据转换,但转换涉及一些数据验证。 当验证失败时,我想记录失败案例,然后继续处理其余的事情…

随波逐流 2025-01-13 07:17:11 2 0

Spark.readStream 与 Kafkautils.createDirectStream

我想知道是否有人知道这两种语法之间的区别是什么?我知道两者都用于从 Kafka 读取数据,但它们有什么区别? Spark.readStream.format("kafka") Kafka…

雨的味道风的声音 2025-01-12 20:42:47 2 0

警告 CSVHeaderChecker:CSV 标头不符合架构。 - 但标题是正确的

我正在尝试使用 Spark 流式传输 CSV 文件。 我受到 https://dzone.com/articles/spark-structed 的启发-streaming-using-java。 但是我收到错误: 22/…

咆哮 2025-01-12 09:24:31 2 0

覆盖模式下的 pyspark insertInto 是追加而不是覆盖分区

我是一名正在开发 Spark 2.3 的数据工程师,我遇到了一些问题: 将 Spark.conf 更改为“动态” spark = spark_utils.getSparkInstance() spark.conf.s…

私藏温柔 2025-01-11 07:34:19 2 0

Cosmos Changefeed Spark 流随机停止

我有一个 Spark 流作业,它读取 Cosmos Changefeed 数据,如下所示,在具有 DBR 8.2 的 Databricks 集群中运行。 cosmos_config = { "spark.cosmos.ac…

长伴 2025-01-10 16:57:15 2 0

sparkstreaming local[4]消费Kafka四分区topic,只有一个消费者在工作

sparkstreaming消费Kafka,用local[4]模式处理有四个分区的topic,为什么只起来一个消费者,手动维护的四个分区offset更新值都一样,有碰到过这种情况…

白色秋天 2022-09-12 23:56:08 34 0

流数据异常检测引擎输出的时间不对

在传感器监控系统中,我用DolphinDB流数据异常检测引擎实现2分钟内若温度传感器出现2次40度以上,一次30度以上就报警的功能时,碰到报警输出时间不对…

乖乖公主 2022-09-12 04:15:35 30 0

Spark on yarn 在创建Hbase的Connection时,报 ClassNotFoundException

ConnectionFactory.createConnection(configuration) 在执行以上方法时候报的错误:Caused by: java.lang.ClassNotFoundException: org.apache.hadoop…

蹲在坟头点根烟 2022-09-12 02:36:25 36 0

nohup命令提交任务有其它方案可以替代吗?

一次提交任务,保证该任务从此开始一直在后台永久运行,即使关闭了提交任务的shell窗口,任务依旧在后台运行,有什么其它的方案吗?不使用nohup…

诗笺 2022-09-12 00:42:59 35 0

python开发,spark接收kafka的输入流时

import cv2 import sys import findspark findspark.init() from kafka import KafkaConsumer from pyspark import SparkContext from pyspark.strea…

沉鱼一梦 2022-09-11 22:39:45 30 0
更多

推荐作者

饮湿

文章 0 评论 0

明月

文章 0 评论 0

02

文章 0 评论 0

hs1283

文章 0 评论 0

风向决定发型

文章 0 评论 0

落花浅忆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文