gpt4 book ai didi

aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据

转载 作者:行者123 更新时间:2023-12-02 19:41:08 29 4
gpt4 key购买 nike

我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时,我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式,这似乎与 RDBMS 和 Cassandra 不同。

我的数据集是记录的集合,这样唯一的“主键”是由多个字段的组合定义的(如果我在 Aerospike 意义上误用了术语主键,我深表歉意 - 最初我计划简单地将这些字段与分隔符连接起来)。我需要能够通过指定所有这些字段来检索单个记录,并检索指定子集的批处理。例如,假设我正在存储人口统计数据,其中我的“主键”是列 yearlocationsource 的组合我从中获得了数据。通过指定全部 3 个,我将获得精确的记录,如果指定 2 个或仅指定 1 个,则将获得记录集合。

在 RDBMS 中,我将使用索引来实现这一点。在 Cassandra 中,最好的方法是将所有 3 个键添加到主键,并在物化 View 中重新排列它们的顺序(如果我不能始终保证在执行搜索时分区键可用)。

随着我越来越多地玩 Aerospike,我意识到这里的 PK 并没有像上面的两种情况那样对待。此外,我开始认为 Aerospike PK 可能根本不应该成为用户数据的一部分,因为默认情况下它们不会返回(除非在写入之前设置 sendKeys ,其中如果它们只是简单地复制到垃圾箱中)。

从阅读文档来看,我真正想要的可能是二级索引(因为它们在如何查询数据方面提供了更大的灵活性)?索引在这里是正确的方法还是不鼓励索引,就像在 Cassandra 中一样?我可能会因为尝试将 Aerospike 概念与其他数据库进行比较而感到困惑。

最佳答案

很好的问题 - 需要详细的答案,但让我以牺牲总体准确性为代价来保持概念简短。

1 - Aersopike 中的主键是字符串/整数/字节,无论您选择什么 -> 由您的应用程序绑定(bind)到的客户端库哈希为 20 字节。这个 20 字节的哈希值是发送到服务器的“ key ”,服务器用它来处理您的记录数据。因此,您可以创建一个字符串键:“2020:san_jose:web”,与该键关联的任何数据都将作为记录存储在 Aerospike 中。您可以执行 sendKey 操作,甚至可以将 key 存储为记录中的另一个字符串箱。但 Aerospike 用于跟踪您的记录的是“2020:san_jose:web”的 20 字节哈希值。这种复合键不会隐式绑定(bind)到数据箱 - 而是您在应用程序中显式创建。如果您可以(在应用程序中)为您感兴趣的一组记录“生成”此字符串,然后使用批量读取 API,则可以使用此技术读取一批记录。但您不能使用 bin 中的数据并告诉 Aerospike 为您“生成”此 key 、找到匹配的记录并返回它们。

2 - 可以使用二级索引吗?在 Aerospike 中,您最多可以构建 256 个 SI,但在给定的查询调用中只能使用一个。 (我不建议为 RAM 加上其他操作考虑而构建多个。)bin 数据的基数越高,您需要的 RAM 就越多。索引构建在进程 RAM 中(具有其自身的操作含义),并将查询与散列键以及候选记录联系起来。因此,假设您在 city=="san_jose"上使用 SI - 这将产生记录的子集。 (选择一个 SI,最好将数据剔除到总数的 15% - 建议。)现在,这将检索 city bin 与 san_jose 匹配的所有记录。这一切都在 RAM 中 - 所以速度很快。之后它将从磁盘读取所有这些记录并开始发送回客户端。

3 - 此时,您还有一个额外的机会来编写非常复杂的谓词过滤器。所以你可以说,在这个检索到的集合中,将年份 = 2020 且来源 = web 的记录发送给我......无论你需要什么逻辑 AND OR NOT 条件、正则表达式等(我牺牲准确性来驱动更大的点。你也可以在从磁盘获取记录之前,对发生在 RAM 级别的记录元数据运行 predex 过滤器。)

4 - 最后,为什么 SI 在分布式数据库中不受欢迎?如果集群稳定,它们会很好地工作。如果节点进入或退出,数据将被迁移以创建副本副本 - SI 查询与迁移数据并行运行 - 您可能会丢失或获得重复项。将 SI 查询视为相对“长时间”运行的操作。在 Aerospike 中,如果您确保在启动 SI 查询之前数据不会迁移,您可以设置一个可选标志 -failOnClusterChange - 因此,如果节点在事件期间退出或加入,您的查询将失败(客户端得到通知) SI查询。根据您的数据模型,您可能关心也可能不关心 SI 查询的 100% 准确性。

关于aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60105511/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com