kafka将sink连接到mongo仅最后结果有延迟

发布于 2025-01-20 06:58:45 字数 950 浏览 4 评论 0原文

我有按国家分组的聚合查询pageView，结果推送到主题。

并通过kafka连接器下沉到mongodb

{
    "connector.class": "MongoDbAtlasSink",
    "name": "confluent-mongodb-sink",
    "input.data.format" : "JSON",
    "connection.host": "ip",
    "topics": "viewPageCountByUsers",
    "max.num.retries": "3",
    "retries.defer.timeout": "5000",
    "max.batch.size": "0",
    "database": "test",
    "collection": "ViewPagesCountByUsers",
    "tasks.max": "1"
}

问题是这个数据非常频繁并且对mongodb的负载很大。我如何设置 kafkaconnection 仅按密钥发送最后一个值作为批处理，例如延迟 5 秒？示例：更新数据库 5 次是没有意义的

{countryID:7, viewCount: 111}
{countryID:7, viewCount: 112}
{countryID:7, viewCount: 113}
{countryID:7, viewCount: 114}
{countryID:7, viewCount: 115}

如果有机会通过键仅发送最后结果并延迟 5 秒，我可以更新 1 次。

// collect batch 5 sec and flush: 
{countryID:7, viewCount: 115}
{countryID:8, viewCount: 573}

怎么办呢？

原文

i have aggregation query pageView group by country, results push to out topic.

And sink to mongodb by kafka connector

{
    "connector.class": "MongoDbAtlasSink",
    "name": "confluent-mongodb-sink",
    "input.data.format" : "JSON",
    "connection.host": "ip",
    "topics": "viewPageCountByUsers",
    "max.num.retries": "3",
    "retries.defer.timeout": "5000",
    "max.batch.size": "0",
    "database": "test",
    "collection": "ViewPagesCountByUsers",
    "tasks.max": "1"
}

The problem is that this data is very frequent and very load mongodb. How i can set kafkaconnection that send only last value by key as batch, example with 5 sec delay ?
Example: It's pointless to update the database 5 times

{countryID:7, viewCount: 111}
{countryID:7, viewCount: 112}
{countryID:7, viewCount: 113}
{countryID:7, viewCount: 114}
{countryID:7, viewCount: 115}

If there was an opportunity send only last result by key with 5 sec delay i can update 1 time.

// collect batch 5 sec and flush: 
{countryID:7, viewCount: 115}
{countryID:8, viewCount: 573}

How do it?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一梦浮鱼 2025-01-27 06:58:45

接收器连接器只接受主题中的任何内容，通常不进行批处理。

您需要使用流处理器（例如 Kafka Streams / KSQLdb）来运行窗口聚合，然后输出到一个新主题，您可以从接收器连接器读取该主题。

回复收藏 0 原文

~没有更多了~

关于作者

糖粟与秋泊

暂无简介

文章

25 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

kafka将sink连接到mongo仅最后结果有延迟

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

kafka将sink连接到mongo仅最后结果有延迟

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。