Spark 结构化流 - Kinesis 作为数据源

发布于 2025-01-12 03:38:00 字数 810 浏览 4 评论 0原文

我正在尝试使用 psypark 结构化流来使用 kinesis 数据流记录。我正在尝试在 awsglue 批处理作业中运行此代码。我的目标是使用检查点并将检查点和数据保存到 s3。我能够使用数据，但它只为每个触发器提供很少的记录，而运动数据流有很多记录。我正在使用 TRIM_HORIZON ，它是最早的别名，并触发一次 Spark.writestream ，以便它执行一次并关闭集群。当我再次运行该作业时，它会选择检查点的最新偏移量并运行。

kinesis = spark.readStream.format('kinesis') \
        .option('streamName', kinesis_stream_name) \
        .option('endpointUrl', 'blaablaa')\
        .option('region', region) \
        .option('startingPosition', 'TRIM_HORIZON')\
        .option('maxOffsetsPerTrigger',100000)\
        .load()

// 在这里做一些转换

TargetKinesisData = stream_data.writeStream.format("parquet").outputMode('append').option(
        "path", s3_target).option("checkpointLocation", checkpoint_location).trigger(once=True).start().awaitTermination()

原文

I am trying to consume kinesis data stream records using psypark structured stream.
I am trying to run this code in aws glue batch job. My goal is to use checkpoint and save checkpoints and data to s3. I am able to consume the data but it is giving only few records for every trigger whereas kinesis data stream has lot of records. I am using TRIM_HORIZON which is alias to earliest and trigger spark.writestream once so that it executes once and shuts down the cluster. When i run the job again, it picks latest offset from checkpoint and runs.

kinesis = spark.readStream.format('kinesis') \
        .option('streamName', kinesis_stream_name) \
        .option('endpointUrl', 'blaablaa')\
        .option('region', region) \
        .option('startingPosition', 'TRIM_HORIZON')\
        .option('maxOffsetsPerTrigger',100000)\
        .load()

// do some transformation here

TargetKinesisData = stream_data.writeStream.format("parquet").outputMode('append').option(
        "path", s3_target).option("checkpointLocation", checkpoint_location).trigger(once=True).start().awaitTermination()

分享到QQ

分享到微博