使用令牌范围删除使用Spark的数十亿Cassandra记录？

发布于 2025-01-21 08:40:01 字数 615 浏览 3 评论 0 原文

我的15TB Cassandra表中的一半以上的记录已经过时了，我想删除它们。我为此写了一份火花工作，但它看起来很脆弱，通常会因超时错误而死（不提及墓碑）。因此，我想在一系列较小的工作中扫描桌子，每个工作都处理桌子的独特而有限的部分（因此希望避免可怕的墓碑问题）。不幸的是，有了我的索引，我无法准确查询过时的记录，因此我必须全部检查它们。我的预期方法是选择令牌（partition_key）＆gt; m和token（partition_key）＆lt; n并选择一系列的M，n来在桌子上工作。 las，Spark似乎也有一个类似的想法，因此我得到了一个错误：

准备select ...从... where where where（“上下文”，“ itemid”）＆gt的异常。？和令牌（“ context”，“ itemid”）＆lt; =？和令牌（context，itemid）＆gt; 9200000005000000000和令牌（上下文，itemid）＆lt; 9223372036854775807允许过滤：在上下文上发现了一个以上的限制，ItemID

我很确定前两个条件是由Spark注入。我不知道允许过滤来自哪里。

显然，该索引并未考虑到此清除操作。在某个时候，我可能会咬着子弹，然后迁移到复制的桌子上没有过时的记录。但是，如果可行的话，我想在原地进行此清除。

原文