gpt4 book ai didi

amazon-web-services - DynamoDB - AWS 上的事件存储

转载 作者:行者123 更新时间:2023-12-04 04:31:28 24 4
gpt4 key购买 nike

我正在 AWS 上设计一个 Event Store,我选择了 DynamoDB,因为它似乎是最好的选择。我的设计似乎相当不错,但我面临一些我无法解决的问题。

**该设计

事件由 (StreamId, EventId) 对唯一标识:

  • StreamId :它与aggregateId 相同,这意味着一个聚合对应一个事件流。
  • EventId :有助于在同一事件流中保持排序的增量数字

  • 事件保留在 DynamoDb 上。每个事件都映射到表中的单个记录,其中必填字段是 StreamId、EventId、EventName、Payload(可以轻松添加更多字段)。

    partitionKey 是StreamId,sortKey 是EventId。

    将事件写入事件流时使用乐观锁定。为了实现这一点,我使用了 DynamoDb 条件写入。如果已经存在具有相同(StreamId,EventId)的事件,我需要重新计算聚合,重新检查业务条件,如果业务条件通过,最后再次写入。

    事件流

    每个事件流由 partitionKey 标识。查询所有事件的流等于查询 partitionKey=${streamId} 和 0 到 MAX_INT 之间的 sortKey。

    每个事件流标识一个且仅一个聚合。如前所述,这有助于使用乐观锁定处理同一聚合上的并发写入。这也可以在重新计算聚合时提供出色的性能。

    事件发布

    利用 DynamoDB Streams + Lambda 的组合发布事件。

    重播事件

    这就是问题开始的地方。让每个事件流只映射一个聚合(这会导致有大量的事件流),没有简单的方法可以知道我需要从哪些事件流中查询所有事件。

    我正在考虑在 DynamoDB 中的某处使用额外的记录,该记录将所有 StreamId 存储在一个数组中。然后我可以查询它并开始查询事件,但是如果在我重播时创建了一个新流,我就会丢失它。

    我错过了什么吗?或者,我的设计是错误的吗?

    最佳答案

    您可以使用 GSI 来检索给定时间段内的事件。根据正在处理的事件数量,您可能需要将 GSI 写入分片以避免热键。假设事件项目小于 1KB,如果摄取率高于 1000 个项目/秒,您将需要将它们分布在 GSI 上。如果事件大于 1KB,则需要将它们分散得更多。对于小于 1KB 的项目,取每秒事件总数除以 1000。这将告诉您 GSI 需要多少个分片才能跟上表格,例如假设您每秒摄取 5K 个事件,您将需要 5 个分片。

    当您将事件写入表时,添加一个名为“GSIKey”的新属性,并在插入事件时为该属性创建一个 0-4 之间的随机值。使用“GSIKey”作为分区键和时间戳作为排序键来创建 GSI。当您需要获取给定时间范围内的所有事件时,请使用您正在查找的时间范围查询所有 5 个分片,然后简单地对结果集进行合并排序以生成按时间排序的事件列表。如果您每秒处理的事件少于 1000 个,那么您可以使用“0”作为 GSIKey 值,只需查询该分区以获取您需要的事件。

    关于amazon-web-services - DynamoDB - AWS 上的事件存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55763006/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com