- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在阅读some DynamoDB index docs他们让我比任何事情都更困惑。让我们用一个具体的例子来澄清一下。
我有一个简单的日历应用程序,其中有一个 events
table 。这是我拥有的列:
id: guid,
name: string,
startTimestamp: integer,
calendarId: guid (foreign key in a traditional RDBMS model)
ownerId: guid (foreign key in a traditional RDBMS model)
calendarId = x
和 ownerId = y
startTimestamp is between x and y
和 calendarId = z
最佳答案
这是每个人在开始使用 DynamoDB 时(实际上在使用过 DynamoDB 时都会遇到的问题)。
定价和吞吐量
让我们从 DynamoDB 是如何开始的 priced (它相关 - 老实说)。暂时忽略免费套餐,您需要为静态数据每月每 GB 支付 0.25 美元。您还需要为每个写入容量单位 (WCU) 每月支付 0.47 美元和每个读取容量单位 (RCU) 每月支付 0.09 美元。 Throughput是您 table 上的 WCU 和 RCU 的数量。您必须预先在表上指定吞吐量 - 您可以在表上执行的写入和读取量受吞吐量供应的限制。支付更多的钱,您可以每秒进行更多的读取和写入。有关 DynamoDB 如何分区表的确切详细信息,请参见 this answer .
key
现在我们需要考虑表分区。表必须有一个主键。主键必须有一个散列键(又名分区键),并且可以选择有一个排序键(又名范围键)。 DynamoDB 创建 partitions基于您的哈希键值。在分区键值中,数据按范围键排序(如果您已指定)。
数据访问
如果您有确切的主键(如果有的话,散列键和范围键),您可以使用 GetItem 立即访问一个项目。 .如果您有多个元素要获取,您可以使用 BatchGetItem .
DynamoDB 只能通过两种方式“搜索”数据。 Query可以 一次调用只取一个分区的数据 ,因为它使用分区键(以及可选的排序键),所以速度很快。 Scan总是评估表中的每个项目,所以它的 通常很慢并且在大表上不能很好地扩展 .
吞吐量分布
这就是变得有趣的地方。 DynamoDB 会占用您购买的所有吞吐量和 evenly spreads it over all of you table partitions .假设您的表上有 10 个 WCU 和 10 个 RCU,以及 5 个分区,这意味着每个分区有 2 个 WCU 和 2 个 RCU。如果您均匀地访问每个分区,那很好,您可以使用所有购买的吞吐量。但想象你 只有永远访问一个分区。现在您已经购买了 10 个 WCU 和 RCU,但您只使用了 2 个。您的表将比您想象的要慢得多。一种选择是购买更多的吞吐量,这会起作用,但对大多数工程师来说可能不是很满意。
统一访问 v 自然访问
基于以上我们知道我们想要 design a table where each partition gets accessed evenly .但是,根据我的经验,人们对此过于关注,如果您阅读我刚刚链接的文章(您也链接过),这并不奇怪。
请记住,分区键是我们在查询中用来快速获取数据并避免常规扫描的内容。有些人过于专注于使他们的分区访问完全统一,最终得到一个他们无法快速查询的表。
答案
我喜欢引用Best Practices for Tables guide .尤其是上面写着 的表用户 ID 是一个很好的分区键,只要许多用户定期访问您的应用程序 . (它实际上表示您有很多用户的地方 - 这是不正确的,表的大小无关紧要)。
它在统一访问和能够为您的应用程序使用直观、自然的查询之间取得平衡,但我要说的是,如果您是 DyanmoDB 的新手,正确的答案可能是基于直观访问来设计您的表。成功完成后,请考虑统一访问和热分区,但请记住,访问不必完全统一。有多种设计模式可以实现直观和统一的访问,但这些对于刚开始的人来说可能很复杂,并且在许多情况下,如果人们过于关注统一访问的想法,可能会阻止他们使用 DynamoDB。
提示
大多数应用程序都会有用户。对于大多数查询,在大多数应用程序中,您将执行的最常见查询是获取用户的数据。因此,大多数应用程序的主分区键的第一个选项通常是用户 ID。没关系,只要您没有一些点击率很高的用户和许多从不登录的用户。
另一个提示。如果您的表称为蔬菜,则您的主分区键可能是蔬菜 ID。如果你的表叫做 shoes,你的主分区键可能是 shoes id。
大多数应用程序将为每个用户(或蔬菜或鞋子)提供许多项目。主键必须是唯一的。一个不错的选择通常是添加日期范围(排序)键 - 可能是创建项目的日期时间。然后按创建日期对用户分区内的项目进行排序,并为每个项目提供唯一的复合主键(即散列键 + 范围键)。使用生成的 UUID 作为范围键也很好,您不会使用它给您的排序,但是您可以为每个用户拥有多个项目,并且仍然使用 Query 功能。
索引不是解决方案
啊哈!但是我可以让我的分区键完全随机,然后使用我真正想要查询的属性的分区键应用索引。这样我就可以获得统一的访问和快速直观的查询。
可惜不是。索引有自己的吞吐量和分区,独立于建立索引的表。把索引想象成一个全新的表——它们基本上就是这样。 索引不是解决不均匀分区访问的方法。
最后 - 你的架构
主键
哈希键:事件 ID
范围键:无
全局二级指数
哈希键:日历 ID
范围键:startTimestamp
假设事件 ID 被统一访问,它将是一个很好的哈希键。您确实需要描述您的数据是如何分布的,以便对此进行更多讨论。其他影响因素是您希望查询工作的速度以及您愿意支付的费用(例如,二级索引很昂贵)。
还有你的疑问:
通过 ID 获取事件
GetItem使用事件 ID
获取 calendarId = x 和 ownerId = y 的所有事件
按 GSI 分区键查询,在 ownerId 上添加条件
获取 startTimestamp 在 x 和 y 之间且 calendarId = z 的所有事件
按 GSI 分区键查询,在范围键上添加条件
关于amazon-dynamodb - 对于典型的 crud 应用程序,推荐的 dynamo 索引模式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48219867/
我正在使用 Boto3 和 Python 开发 Dyanamodb。我发现的问题之一是我们应该何时使用 dynamodb.client、dynamodb.resource 和 dynamodb.Tab
DynamoDB documentation描述了表分区原则上是如何工作的,但它对细节(即数字)非常了解。 DynamoDB 表分区究竟如何以及何时发生? 最佳答案 我找到了这个 presentati
我在 DynamoDB 表中有一个项目。该项目看起来像这样: { data: [ 1, 2, 3, 4, 5, 6 ] more_data: [ 2, 3, 4, 5, 6, 7 ] } 使用
我的 DynamoDB 表中的一个属性是一个名为 REQUEST_IDS 的列表,我想在更新项目之前检查该列表的长度以查看它是否满足条件(小于 10) .如何在 nodejs 的 ConditionE
我正在使用 Amazon Dynamodb,但没有太多经验。我有这样的价格表: 编号 |插入日期 |产品名称 |店名 |价格 相同的商店名称和产品名称可以有不同的值(价格和插入日期可能不同)。例如 i
我对 DynamoDB 上查询/扫描的限制有疑问。 我的表有 1000 条记录,对所有记录的查询返回 50 个值,但是如果我将 Limit 设置为 5,这并不意味着查询将返回前 5 个值,它只是说查询
我需要在 jsp 上显示最大计数为 10 的搜索结果,并且它应该有一个分页来作为分页功能来回遍历。 Dynamodb 有一个 最后评估 key ,但返回上一页无济于事,尽管我可以通过 移动到下一个结果
我是 CouchDB 的忠实粉丝,并且完全爱上了每个文档发出不止一次的 map 函数。我想知道在 DynamoDB 中是否可以通过使用字符串或数字集类型作为散列和范围主键的一部分(作为散列或范围属性)
我目前正在使用 DynamoDB。如果该记录的日期早于新记录日期字段,我想使用条件写入来更新记录。 有没有办法比较条件写入的 DateTime 类型?还是目前仅适用于整数、字符串和流? 谢谢。 最佳答
如何对 dynamoDB 表建模以构建一个标签系统,其中产品可以分配多个标签,并且我们应该能够过滤具有特定标签或标签集合的产品集,并获取分配给给定标签的所有标签产品? 我考虑过有一张 table :
我试图更好地理解在 AWS DynamoDB 中使用邻接列表模式进行多对多 (m:n) 关系设计。 在此处查看 AWS 文档:https://docs.aws.amazon.com/amazondyn
我怀疑 DynamoDB 中的这一说法是否属实或我的理解不正确。它说, ProvisionedThroughputExceededException 消息:您超出了表或一个或多个全局二级索引的最大允许
考虑一个 DynamoDB 表,它由一个主键和两个描述开始日期和结束日期的属性组成。如何在不扫描整个表的情况下查询时间范围是否与表中的时间范围重叠? 例子: 发电机表有两条记录 PK Start
我有一个 DynamoDB 表,其中包含将由许多应用程序读取的键值对。在启动时,每个应用程序将读取整个表并将其缓存在内存中。 我试图解决的问题是,如果 DynamoDB 表中的一个或多个项目已被修改,
我正在有条件地更新 dynamoDB 记录(仅当记录具有其属性之一的特定值时)。无论是否成功更新(条件是否满足),我都想取回记录。 docClient.update(params, function(
我目前正在对 DynamoDB 进行批量加载并将我们的数据项划分为批处理单元: 根据限制文件: https://docs.aws.amazon.com/amazondynamodb/latest/AP
我正在跟踪dynamodb的Python教程,以在端口8000上设置本地dynomodb http://docs.aws.amazon.com/amazondynamodb/latest/gettin
我正在创建一个 DynamoDB 表来保存与单个对象关联的注释。 评论在特定时间发布到对象,我使用发布的时间作为范围,因此评论可以按时间降序排序。我有发布评论的用户的 userId 的全局二级索引,这
我正在运行一个简单的 api,它在每次调用时从 dynamodb 表中获取一个项目,我将自动缩放设置为最小值 25 和最大值 10 000。 但是,如果我使用 wrk 或 hey 之类的工具发送 15
我在模型中有一个字段已声明为字符串,如下所示: App.Student= DS.Model.extend({ name: DS.attr('string'), address1: DS.attr('s
我是一名优秀的程序员,十分优秀!