- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时,我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式,这似乎与 RDBMS 和 Cassandra 不同。
我的数据集是记录的集合,这样唯一的“主键”是由多个字段的组合定义的(如果我在 Aerospike 意义上误用了术语主键
,我深表歉意 - 最初我计划简单地将这些字段与分隔符连接起来)。我需要能够通过指定所有这些字段来检索单个记录,并检索指定子集的批处理。例如,假设我正在存储人口统计数据,其中我的“主键”是列 year
、location
和 source
的组合我从中获得了数据。通过指定全部 3 个,我将获得精确的记录,如果指定 2 个或仅指定 1 个,则将获得记录集合。
在 RDBMS 中,我将使用索引来实现这一点。在 Cassandra 中,最好的方法是将所有 3 个键添加到主键,并在物化 View 中重新排列它们的顺序(如果我不能始终保证在执行搜索时分区键可用)。
随着我越来越多地玩 Aerospike,我意识到这里的 PK 并没有像上面的两种情况那样对待。此外,我开始认为 Aerospike PK 可能根本不应该成为用户数据的一部分,因为默认情况下它们不会返回(除非在写入之前设置 sendKeys
,其中如果它们只是简单地复制到垃圾箱中)。
从阅读文档来看,我真正想要的可能是二级索引
(因为它们在如何查询数据方面提供了更大的灵活性)?索引在这里是正确的方法还是不鼓励索引,就像在 Cassandra 中一样?我可能会因为尝试将 Aerospike 概念与其他数据库进行比较而感到困惑。
最佳答案
很好的问题 - 需要详细的答案,但让我以牺牲总体准确性为代价来保持概念简短。
1 - Aersopike 中的主键是字符串/整数/字节,无论您选择什么 -> 由您的应用程序绑定(bind)到的客户端库哈希为 20 字节。这个 20 字节的哈希值是发送到服务器的“ key ”,服务器用它来处理您的记录数据。因此,您可以创建一个字符串键:“2020:san_jose:web”,与该键关联的任何数据都将作为记录存储在 Aerospike 中。您可以执行 sendKey 操作,甚至可以将 key 存储为记录中的另一个字符串箱。但 Aerospike 用于跟踪您的记录的是“2020:san_jose:web”的 20 字节哈希值。这种复合键不会隐式绑定(bind)到数据箱 - 而是您在应用程序中显式创建。如果您可以(在应用程序中)为您感兴趣的一组记录“生成”此字符串,然后使用批量读取 API,则可以使用此技术读取一批记录。但您不能使用 bin 中的数据并告诉 Aerospike 为您“生成”此 key 、找到匹配的记录并返回它们。
2 - 可以使用二级索引吗?在 Aerospike 中,您最多可以构建 256 个 SI,但在给定的查询调用中只能使用一个。 (我不建议为 RAM 加上其他操作考虑而构建多个。)bin 数据的基数越高,您需要的 RAM 就越多。索引构建在进程 RAM 中(具有其自身的操作含义),并将查询与散列键以及候选记录联系起来。因此,假设您在 city=="san_jose"上使用 SI - 这将产生记录的子集。 (选择一个 SI,最好将数据剔除到总数的 15% - 建议。)现在,这将检索 city bin 与 san_jose 匹配的所有记录。这一切都在 RAM 中 - 所以速度很快。之后它将从磁盘读取所有这些记录并开始发送回客户端。
3 - 此时,您还有一个额外的机会来编写非常复杂的谓词过滤器。所以你可以说,在这个检索到的集合中,将年份 = 2020 且来源 = web 的记录发送给我......无论你需要什么逻辑 AND OR NOT 条件、正则表达式等(我牺牲准确性来驱动更大的点。你也可以在从磁盘获取记录之前,对发生在 RAM 级别的记录元数据运行 predex 过滤器。)
4 - 最后,为什么 SI 在分布式数据库中不受欢迎?如果集群稳定,它们会很好地工作。如果节点进入或退出,数据将被迁移以创建副本副本 - SI 查询与迁移数据并行运行 - 您可能会丢失或获得重复项。将 SI 查询视为相对“长时间”运行的操作。在 Aerospike 中,如果您确保在启动 SI 查询之前数据不会迁移,您可以设置一个可选标志 -failOnClusterChange - 因此,如果节点在事件期间退出或加入,您的查询将失败(客户端得到通知) SI查询。根据您的数据模型,您可能关心也可能不关心 SI 查询的 100% 准确性。
关于aerospike - 使用 Aerospike 处理通过键组合定义唯一性的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60105511/
如果两个连接试图创建同一条记录,aerospike 如何确保只有其中一个能够成功执行?Aerospike 为单个记录上的操作维护一个队列。因此,如果一条记录存在,则对该记录的所有操作都可以串行执行。但
我想知道如何在 Aerospike 中表示关系?我意识到这是一个键值存储,但有没有可以给出的例子? 例如:如果系统中有用户,我想获取与该用户关联的事物记录列表。 最佳答案 几个快速的想法: 1- 让每
我想在 aerospike 中导入以下 csv 文件数据,并希望触发简单的选择查询以使用 python 作为客户端显示数据 例如 policyID,statecode,county,eq_site_l
我目前有一个包含两个节点的工作集群。以下是 /etc/aerospike/aerospike.conf 的内容 - network { service { address an
我们有一个由 8 个节点组成的 aerospike 集群。我们看到,在高峰时段,与其他节点相比,其中一个节点的平均负载明显更高。同样在 AMC 仪表板中,我们看到该节点只有 30% 的读取成功率。在关
有什么办法可以从 aql 或 CLI 的命名空间(Aerospike)中删除一个集合??? 我的集合还包含 Ldts 。 请给我建议一种从 LDT 中删除整个 Set 的方法 最佳答案 您可以使用删除
Aerospike 是一个支持持久性的 key 存储数据库。 但是我可以完全信任这种持久性以将其用作数据库吗? 据我了解,它首先将数据写入内存,然后将其持久化。 我可以忍受最终的一致性,但我不想处于提
我正在考虑将 aerospike 用于我们的一个项目。所以我目前创建了一个 3 节点集群并在其上加载了一些数据。 示例数据 ns: 串号 设置:串号 +-------------------+----
我目前正在设计一个 Aerospike Cluster,它可以处理许多关系,并且会很快变得非常大。我在 aerospike 文档中发现了许多关于使用 python 客户端检索 key 时生成的摘要的引
我们配置了多个客户端来与这个 aerospike 节点集群进行通信。现在我们已经从我们知道的所有客户端中删除了配置,仍然有一些读/写请求传入该集群,如 AMC 中所示。 我查看了/var/log/ae
我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时,我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式,这似乎与 RDBMS 和 Cassandra 不同。
众所周知,Aerospike 服务器不支持某些数据类型,例如 Float。但它们是在客户端处理的。例如,1.0.40 版的 Python 客户端使用序列化支持不受支持的数据类型。 我想知道客户端在从服
我正在尝试了解如何最好地构建我的 Aerospike 架构。当我尝试使用它时,我意识到部分问题是我没有完全理解 Aerospike 处理数据的方式,这似乎与 RDBMS 和 Cassandra 不同。
众所周知,Aerospike 服务器不支持某些数据类型,例如 Float。但它们是在客户端处理的。例如,1.0.40 版的 Python 客户端使用序列化支持不受支持的数据类型。 我想知道客户端在从服
我在一组中有数百万条记录。我想检索所有匹配相同模式的记录。 例如我可能有: id=4444?mode=mode1?fieldA=abc id=4444?mode=mode1?fieldA=azerty
我想从命名空间的集合中选择随机“n”个容器的样本。有没有办法在 Aerospike 查询语言中实现这一点? 在 Oracle 中,我们通过以下查询实现了类似的功能: SELECT * FROM sa
我正在使用 Aerospike 4.8v 并将我的数据保存在磁盘上,并且我正在向 aerospike 发出并行写入请求,如果我发出 10 个并行请求,那么它工作正常,但是当我发出 100 个并行请求时
我想在 aerospike 中查看数据,但找不到任何 GUI 工具。像aql这样的控制台应用程序令人不舒服。有这样的GUI工具吗? 最佳答案 当前答案:2021 打电话过来,想让我更改语音信箱。 ht
HBase 的协处理器是“移动计算而不是数据”的一个很好的例子。不确定 Aerospike 是否支持类似的功能? 最佳答案 Aerospike 支持用户定义函数 (UDF),这些函数是用户加载到数据库
我有一个包含两个 bin 的现有记录,我需要使用 java 客户端 API 向它添加第三个 bin val client = new AerospikeClient("localhost",3000)
我是一名优秀的程序员,十分优秀!