卡桑德拉（Cassandra）阅读表现的位置

发布于 2025-02-08 19:36:05 字数 1840 浏览 2 评论 0原文

我有一个Cassandra簇，有6个节点，每个节点有96个CPU/800 RAM。

我的性能测试表是：

create table if not exists space.table
(
    id          bigint primary key,
    data        frozen<list<float>>,
    updated_at  timestamp
);

表包含150.000.000行。

当我使用查询测试时：

SELECT * FROM space.table WHERE id = X

我什至无法超载群集，客户端本身被超载，RPS到群集为350.000。

现在，我正在测试第二个测试用例：

SELECT * FROM space.table WHERE id in (X1, X2 ... X3000)

我想根据请求从Cassandra中获取3000行。

在这种情况下，Max RPP 15 RPS 之后，在Cassandra线程池中发生了许多待处理任务，其中包括： native-transport-requests 。从Cassandra获得大结果集不是最好的主意吗？最好的做法是什么，可以肯定的是，我可以将3000行分开以分开请求，例如30个请求每个请求，每个请求100个ID。我在哪里可以找到有关它的信息，也许从性能的角度来看，运营不好？

更新：

想分享我的测量结果，以从卡桑德拉（Cassandra）乘以不同的块大小来获得3000行的测量值：

 每个请求使用3000 ID测试

延迟：5秒
Max RPS到Cassandra：20


每个请求使用100个ID测试（总计300个请求按100个IDS）
350 RPS服务的延迟（350 * 30 = 10500请求Cassandra）：170 ms（Q99），95 ms（Q90），75 ms（Q50）
Max RPS到Cassandra：350 * 30 = 10500

每个请求使用20个ID测试（总计150个请求按20个IDS） 
服务的延迟250 RPS服务（250 * 150 = 37500请求Cassandra）：49 MS（Q99），46 MS（Q90），32 MS（Q50）
服务的延迟在600 RPS服务（600 * 150 = 90000请求Cassandra）：190 ms（Q99），180 ms（Q90），148 ms（Q50）
Max RPS到Cassandra：650 * 150 = 97500


每个请求使用10个ID测试（总计300个请求通过10个IDS）
服务延迟250 RPS服务（250 * 300 = 75000请求Cassandra）：48 ms（Q99），31 ms（Q90），11 ms（Q50）
服务的延迟为600 RPS服务（600 * 300 = 180000向Cassandra请求）：159 MS（Q99），95 ms（Q90），75 ms（Q50）
Max RPS到Cassandra：650 * 300 = 195000


每个请求使用5个ID测试（总计600个请求通过5个IDS）
550 RPS的延迟服务（550 * 600 = 330000请求Cassandra）：97 MS（Q99），92 MS（Q90），60 ms（Q50）
Max RPS到Cassandra：550 * 660 = 363000


每个请求使用1个ID测试（总计3000个请求通过1个IDS）
服务的延迟为190 RPS服务（250 * 3000 = 750000请求Cassandra）：49 ms（Q99），43 MS（Q90），30 ms（Q50）
Max RPP到Cassandra：190 * 3000 = 570000

原文

I have a Cassandra cluster of 6 nodes, each one has 96 CPU/800 RAM.

My table for performance tests is:

create table if not exists space.table
(
    id          bigint primary key,
    data        frozen<list<float>>,
    updated_at  timestamp
);

Table contains 150.000.000 rows.

When I was testing it with query:

SELECT * FROM space.table WHERE id = X

I even wasn't able to overload cluster, the client was overloaded by itself, RPS to cluster were 350.000.

Now I'm testing a second test case:

SELECT * FROM space.table WHERE id in (X1, X2 ... X3000)

I want to get 3000 random rows from Cassandra per request.

Max RPS in this case 15 RPS after that occurs a lot of pending tasks in Cassandra thread pool with type: Native-Transport-Requests.
Isn't it the best idea to get big resultsets from cassandra? What is the best practice, for sure I can divide 3000 rows to separate requests, for example 30 request each with 100 ids.
Where can I find info about it, maybe WHERE IN operation is not good from performance perspective?

Update:

Want to share my measurements for getting 3000 rows by different chunk size from Cassandra:

Test with 3000 ids per request

Latency: 5 seconds
Max RPS to cassandra: 20


Test with 100 ids per request (total 300 request each by 100 ids)
Latency at 350 rps to service (350 * 30 = 10500 requests to cassandra): 170 ms (q99), 95 ms (q90), 75 ms(q50)
Max RPS to cassandra: 350 * 30 = 10500

Test with 20 ids per request (total 150 request each by 20 ids) 
Latency at 250 rps to service(250 * 150 = 37500 requests to cassandra): 49 ms (q99), 46 ms (q90), 32 ms(q50)
Latency at 600 rps to service(600 * 150 = 90000 requests to cassandra): 190 ms (q99), 180 ms (q90), 148 ms(q50)
Max RPS to cassandra: 650  * 150 = 97500


Test with 10 ids per request (total 300 request each by 10 ids)
Latency at 250 rps to service(250 * 300 = 75000 requests to cassandra): 48 ms (q99), 31 ms (q90), 11 ms(q50)
Latency at 600 rps to service(600 * 300 = 180000 requests to cassandra): 159 ms (q99), 95 ms (q90), 75 ms(q50)
Max RPS to cassandra: 650  * 300 = 195000


Test with 5 ids per request (total 600 request each by 5 ids)
Latency at 550 rps to service(550 * 600 = 330000 requests to cassandra): 97 ms (q99), 92 ms (q90), 60 ms(q50)
Max RPS to cassandra: 550  * 660 = 363000


Test with 1 ids per request (total 3000 request each by 1 ids)
Latency at 190 rps to service(250 * 3000 = 750000 requests to cassandra): 49 ms (q99), 43 ms (q90), 30 ms(q50)
Max RPS to cassandra: 190  * 3000 = 570000

分享到QQ

分享到微博