当前位置：文江博客话题详情

elasticsearch聚合精确性问题

发布于 2022-09-12 23:49:29 字数 238 浏览 15 评论 0

在elasticsearch中做聚合 cardinality 时，当数据在百万级别的时候，精确性往往得不到保证。实测发现大概5% 左右的误差。难道elasticsearch中 cardinality 聚合真的不能做到完全精确吗？

另外，mysql中 distinct或者group by对于百万级别千万级别数据，加索引优化速度依然不理想。关于这种聚合查询，既然elasticsearch不能保证精确性，那在实时性要求较高的场景中应该如何处理比较好呢

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猥︴琐丶欲为 2022-09-19 23:49:29

是的，官方文档已经说明。cardinality 度量是一个近似算法。它是基于 HyperLogLog++ （HLL）算法的。 HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。所以在效率和准确度权衡之下，误差是可以接受的。

回复收藏 0

~没有更多了~

关于作者

深府石板幽径

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

elasticsearch聚合精确性问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

elasticsearch聚合精确性问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。