在flink SQL或表API中控制每个操作员并行性
我正在使用Flink SQL来定义从无限源(Google pubsub)读取的流媒体作业,并使用HBase接收器写入Google Bigtable。查询是在流中窗口窗口,并在这些窗口上应用一些聚合功能,以写入Bigtable。
该作业最终由2个子任务组成。第一个是源 +一些映射功能 +本地窗口聚合。第二个应用全局骨料 + A MAP +接收器函数。
我们希望能够为每个子任务定义不同的并行性,这是假设第二个子任务可以比源子任务所需的相比,从第二个子任务中受益。
I am using Flink SQL to define a streaming job that reads from an unbounded source (google PubSub) and uses the HBase sink to write to Google BigTable. The query is windowing the stream and applying some aggregation function on those windows before is written to BigTable.
The job ends up consisting of 2 subtasks. The first one is the source + some map functions + local window aggregate. The second one applies the global aggregate + a map + the sink function.
We will like to be able to define different parallelism for each subtask, under the assumption that the second one could benefit from more parallelism than what the source subtask needs.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
data:image/s3,"s3://crabby-images/d5906/d59060df4059a6cc364216c4d63ceec29ef7fe66" alt="扫码二维码加入Web技术交流群"
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
在Flink 1.15中,使用自适应批处理调度程序,但否则(尚未吗?)。
In Flink 1.15 something like this is possible for batch jobs by using the adaptive batch scheduler, but otherwise this isn't (yet?) possible.