database - Cassandra CQLEngine 允许过滤-6ren

database - Cassandra CQLEngine 允许过滤

转载作者：搜寻专家更新时间：2023-10-30 22:26:17

26

4

我正在使用 Python Cassandra Cqlenengine 扩展。我创建了多对多表，但在 user_applications 模型查询过滤过程中收到错误。我阅读了有关此问题的不同资源，但我并未完全理解此问题。

资料来源: https://ohioedge.com/2017/07/05/cassandra-primary-key-partitioning-key-clustering-key-a-simple-explanation/

Cassandra Allow filtering

Is ALLOW FILTERING in Cassandra for following query efficient?

数据库模型:

class UserApplications(BaseModel):
    __table_name__ = "user_applications"

    user_id = columns.UUID(required=True, primary_key=True, index=True)
    application_id = columns.UUID(required=True, primary_key=True, index=True)
    membership_id = columns.UUID(required=True, primary_key=True, index=True)

错误信息:

Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING"

Python CQLEngine代码:

q = UserApplications.filter(membership_id=r.membership_id,
                                    user_id=r.user_id,
                                    application_id=r.application_id)

CQLEngine SQL 语句:

SELECT "id", "status", "created_date", "update_date" FROM db.user_applications WHERE "membership_id" = %(0)s AND "user_id" = %(1)s AND "application_id" = %(2)s LIMIT 10000

描述表结果:

CREATE TABLE db.user_applications (
    id uuid,
    user_id uuid,
    application_id uuid,
    membership_id uuid,
    created_date timestamp,
    status int,
    update_date timestamp,
    PRIMARY KEY (id, user_id, application_id, membership_id)
) WITH CLUSTERING ORDER BY (user_id ASC, application_id ASC, membership_id ASC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';
CREATE INDEX user_applications_membership_id_idx ON db.user_applications (membership_id);

等待您的帮助。

最佳答案

您收到此错误的原因是您没有在查询中添加 ALLOW FILTERING 标志，如果您在查询末尾添加 ALLOW FILTERING 它应该工作。

在 Cassandra 查询中使用 ALLOW FILTERING 实际上允许 cassandra 在加载它们之后过滤掉一些行(可能在它从表中加载所有行之后)。例如，对于您的查询，Cassandra 可以执行此查询的唯一方法是从表 UserApplications 中检索所有行，然后过滤掉那些不具有您限制的每一列的请求值的行。

使用 ALLOW FILTERING 可能会产生不可预测的性能结果，实际性能取决于表内的数据分布。例如，如果您的表包含 100 万行，其中 95% 的列具有您指定的列的请求值，则查询仍然相对有效，您应该使用 ALLOW FILTERING。另一方面，如果您的表包含 100 万行并且只有 2 行包含请求的值，则您的查询效率极低。 Cassandra 将免费加载 999、998 行。一般来说，如果您的查询需要添加 ALLOW FILTERING，那么您可能应该重新考虑您的架构或为您经常查询的列添加二级索引。

在您的情况下，我建议将列 membership_id、user_id、application_id 作为复合分区键。如果您这样做，您将不再需要在加载后过滤掉任何行，因为所有具有三列相同值的行将驻留在同一分区(在同一物理节点中)，并且您应该在查询(您已经在问题中添加的查询中这样做了)。以下是您可以这样做的方法:

CREATE TABLE db.user_applications (
    user_id uuid,
    application_id uuid,
    membership_id uuid,
    created_date timestamp,
    status int,
    update_date timestamp,
    PRIMARY KEY ((user_id, application_id, membership_id))
);

关于database - Cassandra CQLEngine 允许过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51702419/

26

4

0

文章推荐： c# - 测试条件如何基于查询结果的计数？

文章推荐： vue.js - 为什么在vuelidate中使用sameAs就不行了？

文章推荐： javascript - 在深度监视 VueJs 时忽略一些属性

cassandra - 将数据从 cassandra 迁移到 cassandra
我们有 2 个 cassandra 集群，第一个有旧数据，第二个有新数据。现在我们想要将旧数据从第一个集群移动或复制到第二个集群。什么是最好的方法来做到这一点以及如何做到这一点？我们正在使用 DS
cassandra - OpsCenter for Cassandra 是否会降低 Cassandra 的速度？
我正在考虑安装 OpsCenter 来监控我们在 RackSpace VM 上运行的 24 节点 Cassandra 集群。过去我听说 OpsCenter 减慢了集群速度。我有点担心 OpsCente
cassandra - Cassandra 中没有回滚，那么 Cassandra 是如何删除失败的写入的呢？
假设我有一个复制因子(RF)= 2 的 2 节点集群。我使用一致性 2 触发插入。当客户端等待响应时，Cassandra 开始写入这 2 个节点。中间一个节点失败，无法完成写入，而另一节点上的写入成
cassandra - Apache Cassandra 与 Datastax Cassandra
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
cassandra - Cassandra 是否可以就地更新？
我在 Cassandra 中有一个表，其中我用 1000 多个条目填充了一些行(每行有 10000 多列)。行中的条目更新非常频繁，基本上只是一个字段(它是一个整数)被更新为不同的值。列的所有其他值保
cassandra - Cassandra 在丢弃突变时返回给客户什么？
当Cassandra端有“掉落的突变”时，它是否向调用客户端返回相应的失败？或者即使在服务器端丢弃相应的突变并导致数据丢失，它总是成功响应调用事务的调用客户端？在一个特定实例中，当我们的 TPS 约
cassandra - Cassandra 的哈希值是否跨多个表具有相同的值？
我有一个 Multi-Tenancy 应用程序，其中 tenantId 将成为每个查询的一部分，因此我将其放入所有表的分区键中。例子: CREATE TABLE users { tenantId t
cassandra - Cassandra 中的更新不是反模式吗？
根据 Datastax 文档，在 Cassandra 中先读后写是一种反模式。每当我们在 CQLSH 中使用 UPDATE 或使用 Datastax 驱动程序来设置几列(带有 IF 和集合更新)时，
cassandra - Cassandra 将数据存储在哪个节点上？
是否有命令或任何方式可以知道 Cassandra 的哪些节点上存储了哪些数据？我对 Cassandra 很陌生，在谷歌上搜索这个问题并没有多少运气。谢谢! 最佳答案您可以使用 nodetool
cassandra - 低基数列的二级索引 cassandra
我们有一个包含 1500 万条记录的表，而我们的表是一个 10 节点的 cassandra 集群。我们有一列有接近 20 个可重复值。是否建议在此列上建立二级索引？最佳答案假设在该列上完全均匀分布
cassandra - Cassandra 中允许的最大列数是多少
Cassandra 发布了它的 technical limitations但没有提到允许的最大列数。是否有最大列数？我需要存储 400 多个字段。这在 Cassandra 中可能吗？最佳答案每行的
cassandra - Cassandra 表中的多列
我想知道当表中有多个非 PK 列时会发生什么。我读过这个例子: http://johnsanda.blogspot.co.uk/2012/10/why-i-am-ready-to-move-to-cq
cassandra - Cassandra 中的结果顺序
我有两个关于 Cassandra 查询结果的问题。当我在 Cassandra 中对表进行“完全”选择(即 select * from table )时，是否保证结果将按分区标记的递增顺序返回？例如
cassandra - Cassandra 的赫克托尔
我无法为 Cassandra 设置 Hector。我已经浏览了 documentation和 Cassandra wiki .这些文档的问题在于，那里的很多信息都已经过时或过时(或者我缺乏知识)。无论
cassandra - Cassandra 压力测试
我正在使用 DataStax Enterprise 中 cassandra 中提供的压力测试。如果有人知道的话，我也想要一些关于它和 cassandra 的信息。 - 首先，压力测试使用哪些节点？我的
cassandra - Cassandra 中的列排序
当我在 CQL 中创建表时，列的顺序是否必须精确不是在主键和中不是聚类列: CREATE TABLE user ( a ascii, b ascii, c ascii,
cassandra - 允许过滤实现@Cassandra
我有一张如下表: CREATE TABLE tab( categoryid text, id text, name text, author text, des
cassandra - cassandra 是行列数据库吗？
我正在尝试学习 Cassandra，但对术语感到困惑。很多情况下它表示该行存储键/值对。但是，当我定义一个表时，它更像是声明一个 SQL 表，即；您创建一个表并指定列名和数据类型。谁能澄清一下？
cassandra - Cassandra 中的数据审计
如何对 cassandra 数据实现审计？我正在寻找一个开源选项。 cassandra 是否有任何有助于审计的功能？我可以使用触发器将记录记录到表中吗？我关注了 Triggers示例并且能够将记录
cassandra - Cassandra 的可用性
我遇到了一个问题“me.prettyprint.hector.api.exceptions.HUnavailableException:: 可能没有足够的副本来处理一致性级别。”当我有 RF=1 时，

首页

博学

6Ren·AI

商城

database - Cassandra CQLEngine 允许过滤