gpt4 book ai didi

cassandra - 低基数列的二级索引 cassandra

转载 作者:行者123 更新时间:2023-12-04 23:45:56 26 4
gpt4 key购买 nike

我们有一个包含 1500 万条记录的表,而我们的表是一个 10 节点的 cassandra 集群。我们有一列有接近 20 个可重复值。是否建议在此列上建立二级索引?

最佳答案

假设在该列上完全均匀分布,那么每列值将映射到 750,000 行。现在,DataStax 文档位于 When To Use An Index指出...

built-in indexes are best on a table having many rows that contain the indexed value.



750,000 行当然是“很多”。但即便如此,请记住,您还讨论了 Cassandra 在完成查询时必须忽略的 14,250,000 行。

此外,除非您的 RF 为 10(我怀疑您是否会使用 10 个节点),否则您将产生网络时间,因为 Cassandra 在完成查询所需的所有不同节点之间工作。对于 750,000 行,这可能会超时。

我认为这可能是有效的唯一方法是首先通过分区键限制您的查询。使用二级索引同时使用分区键进行限制将有助于 Cassandra 更快地找到您的行。即便如此,对于这么大的数据集,我会重新评估您的数据模型,并尝试找出不同的表来完成该查询,而无需二级索引。

关于cassandra - 低基数列的二级索引 cassandra,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29459962/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com