- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在扫描一个巨大的表(> 1B 文档),所以我正在使用并行扫描(每个工作人员使用一个段)。
该表有一个散列键和一个排序键。
直觉上,一个段应该包含一组散列键(包括它们的所有排序键),因此一个散列键不应出现在多个段中,但我还没有找到任何文档表明这一点。
有谁知道 DynamoDB 在这种情况下的表现如何?
谢谢
最佳答案
这是一个有趣的问题。我认为很容易找到一份文件,说明每个段包含一系列不相交的散列键,并且相同的散列键不能出现在多个段中 - 但我也没有找到任何这样的文件。我很好奇是否还有其他人可以找到这样的文件。与此同时,我可以尝试提供额外的直觉,说明为什么你的猜想可能是正确的——但也可能是错误的:
我的第一直觉是你是对的:
DynamoDB 使用散列键(也称为分区键)来决定在众多存储节点中的哪个节点存储此数据的副本。共享相同分区键(具有不同排序键 值)的所有项都按排序键顺序存储在一起,因此它们可以按顺序一起查询
。 DynamoDB 在分区键上使用散列函数来决定每个项目的位置(因此得名“散列键”)。
现在,如果DynamoDB需要将扫描所有数据的任务划分为“段”,那么最明智的做法是将哈希值的空间(即哈希键的哈希函数)划分为不同的大小相等的碎片。这种划分很容易做到(只需按 TotalSegments
进行数字划分),它确保每个段中的项目数量大致相同(假设有许多不同的分区),并确保扫描每个段涉及不同的存储节点,因此并行扫描可以比单个存储节点能够进行的速度更快。
但是,有迹象表明这可能不是全部。
In general, there is no practical limit on the number of distinct sort key values per partition key value.
这意味着至少在理论上,您的整个数据库(可能是 1 PB)可能位于具有数十亿个不同排序键的单个分区中。由于亚马逊的单个存储节点确实有大小限制,这意味着 DynamoDB 必须(除非上述说法不正确)支持将单个巨大分区拆分为多个存储节点。这意味着当 GetItem
查找特定项目时,DynamoDB 需要知道哪个排序键 在哪个存储节点上。这也意味着并行扫描可能 - 可能 - 将这个巨大的分区分成几部分,所有部分都扫描相同的分区但其中的排序键范围不同。我不确定我们能否完全排除这种可能性。我猜它永远不会在您只有较小的分区时发生。
关于amazon-dynamodb - 两个 DynamoDB 扫描段可以包含相同的哈希键吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62533603/
我正在使用 Boto3 和 Python 开发 Dyanamodb。我发现的问题之一是我们应该何时使用 dynamodb.client、dynamodb.resource 和 dynamodb.Tab
DynamoDB documentation描述了表分区原则上是如何工作的,但它对细节(即数字)非常了解。 DynamoDB 表分区究竟如何以及何时发生? 最佳答案 我找到了这个 presentati
我在 DynamoDB 表中有一个项目。该项目看起来像这样: { data: [ 1, 2, 3, 4, 5, 6 ] more_data: [ 2, 3, 4, 5, 6, 7 ] } 使用
我的 DynamoDB 表中的一个属性是一个名为 REQUEST_IDS 的列表,我想在更新项目之前检查该列表的长度以查看它是否满足条件(小于 10) .如何在 nodejs 的 ConditionE
我正在使用 Amazon Dynamodb,但没有太多经验。我有这样的价格表: 编号 |插入日期 |产品名称 |店名 |价格 相同的商店名称和产品名称可以有不同的值(价格和插入日期可能不同)。例如 i
我对 DynamoDB 上查询/扫描的限制有疑问。 我的表有 1000 条记录,对所有记录的查询返回 50 个值,但是如果我将 Limit 设置为 5,这并不意味着查询将返回前 5 个值,它只是说查询
我需要在 jsp 上显示最大计数为 10 的搜索结果,并且它应该有一个分页来作为分页功能来回遍历。 Dynamodb 有一个 最后评估 key ,但返回上一页无济于事,尽管我可以通过 移动到下一个结果
我是 CouchDB 的忠实粉丝,并且完全爱上了每个文档发出不止一次的 map 函数。我想知道在 DynamoDB 中是否可以通过使用字符串或数字集类型作为散列和范围主键的一部分(作为散列或范围属性)
我目前正在使用 DynamoDB。如果该记录的日期早于新记录日期字段,我想使用条件写入来更新记录。 有没有办法比较条件写入的 DateTime 类型?还是目前仅适用于整数、字符串和流? 谢谢。 最佳答
如何对 dynamoDB 表建模以构建一个标签系统,其中产品可以分配多个标签,并且我们应该能够过滤具有特定标签或标签集合的产品集,并获取分配给给定标签的所有标签产品? 我考虑过有一张 table :
我试图更好地理解在 AWS DynamoDB 中使用邻接列表模式进行多对多 (m:n) 关系设计。 在此处查看 AWS 文档:https://docs.aws.amazon.com/amazondyn
我怀疑 DynamoDB 中的这一说法是否属实或我的理解不正确。它说, ProvisionedThroughputExceededException 消息:您超出了表或一个或多个全局二级索引的最大允许
考虑一个 DynamoDB 表,它由一个主键和两个描述开始日期和结束日期的属性组成。如何在不扫描整个表的情况下查询时间范围是否与表中的时间范围重叠? 例子: 发电机表有两条记录 PK Start
我有一个 DynamoDB 表,其中包含将由许多应用程序读取的键值对。在启动时,每个应用程序将读取整个表并将其缓存在内存中。 我试图解决的问题是,如果 DynamoDB 表中的一个或多个项目已被修改,
我正在有条件地更新 dynamoDB 记录(仅当记录具有其属性之一的特定值时)。无论是否成功更新(条件是否满足),我都想取回记录。 docClient.update(params, function(
我目前正在对 DynamoDB 进行批量加载并将我们的数据项划分为批处理单元: 根据限制文件: https://docs.aws.amazon.com/amazondynamodb/latest/AP
我正在跟踪dynamodb的Python教程,以在端口8000上设置本地dynomodb http://docs.aws.amazon.com/amazondynamodb/latest/gettin
我正在创建一个 DynamoDB 表来保存与单个对象关联的注释。 评论在特定时间发布到对象,我使用发布的时间作为范围,因此评论可以按时间降序排序。我有发布评论的用户的 userId 的全局二级索引,这
我正在运行一个简单的 api,它在每次调用时从 dynamodb 表中获取一个项目,我将自动缩放设置为最小值 25 和最大值 10 000。 但是,如果我使用 wrk 或 hey 之类的工具发送 15
我在模型中有一个字段已声明为字符串,如下所示: App.Student= DS.Model.extend({ name: DS.attr('string'), address1: DS.attr('s
我是一名优秀的程序员,十分优秀!