背压大,检查点尺寸大
我有一个 Apache Flink 应用程序,已部署在 Kinesis Data Analytics 上。 应用程序处理的有效负载模式(简化版本): { id:String= uuid (each reques…
使用 Apache Flink 进行分布式执行以及类字段/成员的(反)序列化
我对 Flink 作业有一个简单的概念证明。它基本上从 Kafka 主题接收消息(JSON 格式),将它们反序列化为域模型,根据一些预定义的规则集验证这些消息…
PyFlink 14.2 - 表 API DDL - 语义恰好一次
我曾经遇到过这样的场景:我定义了一个 kafka 源,UDF |用于处理并接收到 Kafka 接收器的 UDTF。无论我做什么,如果我运行该作业,输出都会充满单个输…
flink 是否保存带有水印的关闭事件时间窗口的历史记录?
我有一个 flink 作业,它使用带有事件时间和水印的键控翻滚窗口来聚合数据。 我的问题是 flink 是否保留他已经关闭的窗口的状态? 否则,我没有其他解…
是否可以在 flink 中对动态表运行批处理
目前,我通过以下步骤在同一个表上运行多个变体结构化 ETL 作业: 将数据从 RDBMS 持续同步到数据仓库。 在不同时间运行多个ETL(数据仓库中相应时间…
从检查点启动时,Flink 无法恢复 kafka 消费者的操作员状态
我们有一个流作业,它有 20 个独立的管道,每个管道都有一个/多个 Kafka 主题源。 当我们使用新的 jar(我又添加了一个管道)和AllowNonRestoredState…
有没有办法通过 keyBy 广播?
我使用flink版本1.14.3 我有一个大数据(大约4Gb)想要广播到KeyedBroadcastProcessFunction,但是如果我将原始数据广播到每个节点,它将占用大量内存…
Flink 错误“StreamExecutionEnvironment 的实现不可序列化”
我是Flink的初学者,我尝试使用Flink来运行推荐算法之一的LFM,但是运行时我的代码出现了以下错误。我尝试查找并修改,但都没有解决。有人可以告诉我…
Flink 流文件接收器生成并上传同一部分文件的不同版本
使用 flinks Streaming File Sink 将 ORC 文件写入 S3 时,我遇到一些奇怪的行为。 StreamingFileSink orderBookSink = StreamingFileSink .forBulkFo…
Flink Streaming 作业中检查点失败(Table/Sql Api)
我的工作流程如下: Src[Kafka] ->使用 Mysql 查找 ->重复数据删除(在 proc 时间上使用 Top N)-> Upsert Kafka/Mysql 但我的工作运行良好,数据完美…
AggregateFunction 与 SessionWindow - 了解合并的工作原理
在使用 EventTimeSessionWindows 在 Flink 中实现 AggregateFunction 时,我无法理解在 SessionWindow 具有动态间隙的情况下何时发生合并。 代码片段…
用 Async 替换 Flink Sink +丢弃水槽以减轻背压
我有一个项目,将数据发送到接收器,有时需要很长时间才能响应,从而在前面的所有步骤中导致背压。 我想知道用异步函数+丢弃 Sink 替换 Sink 是否有助…
如何从 Apache Flink 中丰富的接收器功能收集侧面输出?
我正在 Flink 中尝试下面的场景 Flink 使用来自 kafka 主题的数据并根据 avro 模式进行验证 在对数据进行一些丰富之后,在处理函数中将数据转换为 JSO…
如何聚合flink窗口会话中的元素?
当 flink 在一段时间内没有接收到元素时,我正在使用 flink 会话窗口,即;当发生不活动间隙时,它应该发出一个事件。 我在flink作业中将间隙配置为10…