aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据-6ren

aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据

转载作者：行者123 更新时间：2023-12-02 19:41:08

29

4

我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时，我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式，这似乎与 RDBMS 和 Cassandra 不同。

我的数据集是记录的集合，这样唯一的“主键”是由多个字段的组合定义的(如果我在 Aerospike 意义上误用了术语主键，我深表歉意 - 最初我计划简单地将这些字段与分隔符连接起来)。我需要能够通过指定所有这些字段来检索单个记录，并检索指定子集的批处理。例如，假设我正在存储人口统计数据，其中我的“主键”是列 year、location 和 source 的组合我从中获得了数据。通过指定全部 3 个，我将获得精确的记录，如果指定 2 个或仅指定 1 个，则将获得记录集合。

在 RDBMS 中，我将使用索引来实现这一点。在 Cassandra 中，最好的方法是将所有 3 个键添加到主键，并在物化 View 中重新排列它们的顺序(如果我不能始终保证在执行搜索时分区键可用)。

随着我越来越多地玩 Aerospike，我意识到这里的 PK 并没有像上面的两种情况那样对待。此外，我开始认为 Aerospike PK 可能根本不应该成为用户数据的一部分，因为默认情况下它们不会返回(除非在写入之前设置 sendKeys ，其中如果它们只是简单地复制到垃圾箱中)。

从阅读文档来看，我真正想要的可能是二级索引(因为它们在如何查询数据方面提供了更大的灵活性)？索引在这里是正确的方法还是不鼓励索引，就像在 Cassandra 中一样？我可能会因为尝试将 Aerospike 概念与其他数据库进行比较而感到困惑。

最佳答案

很好的问题 - 需要详细的答案，但让我以牺牲总体准确性为代价来保持概念简短。

1 - Aersopike 中的主键是字符串/整数/字节，无论您选择什么 -> 由您的应用程序绑定(bind)到的客户端库哈希为 20 字节。这个 20 字节的哈希值是发送到服务器的“ key ”，服务器用它来处理您的记录数据。因此，您可以创建一个字符串键:“2020:san_jose:web”，与该键关联的任何数据都将作为记录存储在 Aerospike 中。您可以执行 sendKey 操作，甚至可以将 key 存储为记录中的另一个字符串箱。但 Aerospike 用于跟踪您的记录的是“2020:san_jose:web”的 20 字节哈希值。这种复合键不会隐式绑定(bind)到数据箱 - 而是您在应用程序中显式创建。如果您可以(在应用程序中)为您感兴趣的一组记录“生成”此字符串，然后使用批量读取 API，则可以使用此技术读取一批记录。但您不能使用 bin 中的数据并告诉 Aerospike 为您“生成”此 key 、找到匹配的记录并返回它们。

2 - 可以使用二级索引吗？在 Aerospike 中，您最多可以构建 256 个 SI，但在给定的查询调用中只能使用一个。 (我不建议为 RAM 加上其他操作考虑而构建多个。)bin 数据的基数越高，您需要的 RAM 就越多。索引构建在进程 RAM 中(具有其自身的操作含义)，并将查询与散列键以及候选记录联系起来。因此，假设您在 city=="san_jose"上使用 SI - 这将产生记录的子集。 (选择一个 SI，最好将数据剔除到总数的 15% - 建议。)现在，这将检索 city bin 与 san_jose 匹配的所有记录。这一切都在 RAM 中 - 所以速度很快。之后它将从磁盘读取所有这些记录并开始发送回客户端。

3 - 此时，您还有一个额外的机会来编写非常复杂的谓词过滤器。所以你可以说，在这个检索到的集合中，将年份 = 2020 且来源 = web 的记录发送给我......无论你需要什么逻辑 AND OR NOT 条件、正则表达式等(我牺牲准确性来驱动更大的点。你也可以在从磁盘获取记录之前，对发生在 RAM 级别的记录元数据运行 predex 过滤器。)

4 - 最后，为什么 SI 在分布式数据库中不受欢迎？如果集群稳定，它们会很好地工作。如果节点进入或退出，数据将被迁移以创建副本副本 - SI 查询与迁移数据并行运行 - 您可能会丢失或获得重复项。将 SI 查询视为相对“长时间”运行的操作。在 Aerospike 中，如果您确保在启动 SI 查询之前数据不会迁移，您可以设置一个可选标志 -failOnClusterChange - 因此，如果节点在事件期间退出或加入，您的查询将失败(客户端得到通知) SI查询。根据您的数据模型，您可能关心也可能不关心 SI 查询的 100% 准确性。

关于aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60105511/

29

4

0

文章推荐： ansible - ansible中如何将列表转换为列表列表

文章推荐： snowflake-cloud-data-platform - 雪花查询性能调优

文章推荐： Django REST Framework - 在 ApiClient 的序列化器测试中设置请求

aerospike - aerospike 如何处理多个连接创建的相同记录？
如果两个连接试图创建同一条记录，aerospike 如何确保只有其中一个能够成功执行？Aerospike 为单个记录上的操作维护一个队列。因此，如果一条记录存在，则对该记录的所有操作都可以串行执行。但
aerospike - Aerospike 中的关系
我想知道如何在 Aerospike 中表示关系?我意识到这是一个键值存储，但有没有可以给出的例子？例如:如果系统中有用户，我想获取与该用户关联的事物记录列表。最佳答案几个快速的想法: 1- 让每
csv - 如何在不使用 aerospike 加载器的情况下在 aerospike 中导入 csv 文件数据？aerospike 加载器是否有任何替代方案？
我想在 aerospike 中导入以下 csv 文件数据，并希望触发简单的选择查询以使用 python 作为客户端显示数据例如 policyID,statecode,county,eq_site_l
aerospike - 如何使用单个节点设置 aerospike 集群？
我目前有一个包含两个节点的工作集群。以下是 /etc/aerospike/aerospike.conf 的内容 - network { service { address an
aerospike - 如何在 aerospike 集群中搜索读取热键？
我们有一个由 8 个节点组成的 aerospike 集群。我们看到，在高峰时段，与其他节点相比，其中一个节点的平均负载明显更高。同样在 AMC 仪表板中，我们看到该节点只有 30% 的读取成功率。在关
aerospike - 如何从 Aerospike 命名空间中删除整个集合？
有什么办法可以从 aql 或 CLI 的命名空间(Aerospike)中删除一个集合？？？我的集合还包含 Ldts 。请给我建议一种从 LDT 中删除整个 Set 的方法最佳答案您可以使用删除
aerospike - 我可以使用 Aerospike 作为持久层吗
Aerospike 是一个支持持久性的 key 存储数据库。但是我可以完全信任这种持久性以将其用作数据库吗？据我了解，它首先将数据写入内存，然后将其持久化。我可以忍受最终的一致性，但我不想处于提
aerospike - 从 aerospike 上的二级索引查询
我正在考虑将 aerospike 用于我们的一个项目。所以我目前创建了一个 3 节点集群并在其上加载了一些数据。示例数据 ns: 串号设置:串号 +-------------------+----
aerospike - Aerospike Digest 的用例
我目前正在设计一个 Aerospike Cluster，它可以处理许多关系，并且会很快变得非常大。我在 aerospike 文档中发现了许多关于使用 python 客户端检索 key 时生成的摘要的引
Aerospike:如何从 aerospike 服务器查找哪些客户端正在访问它？
我们配置了多个客户端来与这个 aerospike 节点集群进行通信。现在我们已经从我们知道的所有客户端中删除了配置，仍然有一些读/写请求传入该集群，如 AMC 中所示。我查看了/var/log/ae
aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据
我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时，我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式，这似乎与 RDBMS 和 Cassandra 不同。
aerospike - 如何处理 Aerospike 中不支持的数据类型
众所周知，Aerospike 服务器不支持某些数据类型，例如 Float。但它们是在客户端处理的。例如，1.0.40 版的 Python 客户端使用序列化支持不受支持的数据类型。我想知道客户端在从服
aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据
我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时，我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式，这似乎与 RDBMS 和 Cassandra 不同。
aerospike - 如何处理 Aerospike 中不支持的数据类型
众所周知，Aerospike 服务器不支持某些数据类型，例如 Float。但它们是在客户端处理的。例如，1.0.40 版的 Python 客户端使用序列化支持不受支持的数据类型。我想知道客户端在从服
aerospike - 如何在 Aerospike 中获取与正则表达式匹配的所有记录？
我在一组中有数百万条记录。我想检索所有匹配相同模式的记录。例如我可能有: id=4444?mode=mode1?fieldA=abc id=4444?mode=mode1?fieldA=azerty
aerospike - 从 Aerospike 查询语言中的一组中选择随机 bin？
我想从命名空间的集合中选择随机“n”个容器的样本。有没有办法在 Aerospike 查询语言中实现这一点？在 Oracle 中，我们通过以下查询实现了类似的功能: SELECT * FROM sa
aerospike - 如何解决 Aerospike 错误，此时不允许操作？
我正在使用 Aerospike 4.8v 并将我的数据保存在磁盘上，并且我正在向 aerospike 发出并行写入请求，如果我发出 10 个并行请求，那么它工作正常，但是当我发出 100 个并行请求时
aerospike - 用于在 aerospike 中查看数据的 GUI
我想在 aerospike 中查看数据，但找不到任何 GUI 工具。像aql这样的控制台应用程序令人不舒服。有这样的GUI工具吗？最佳答案当前答案:2021 打电话过来，想让我更改语音信箱。 ht
aerospike - Aerospike 有类似 HBase 协处理器的东西吗？
HBase 的协处理器是“移动计算而不是数据”的一个很好的例子。不确定 Aerospike 是否支持类似的功能？最佳答案 Aerospike 支持用户定义函数 (UDF)，这些函数是用户加载到数据库
aerospike - 如何在 aerospike 的记录中添加新的 bin
我有一个包含两个 bin 的现有记录，我需要使用 java 客户端 API 向它添加第三个 bin val client = new AerospikeClient("localhost",3000)

首页

博学

6Ren·AI

商城

aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据