gpt4 book ai didi

cassandra - 在 Cassandra 中建模一对多关系的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-02 23:08:19 25 4
gpt4 key购买 nike

假设我想设计一个系统,用户可以在其中创建帖子,每个帖子属于一个用户,但一个用户可以有多个帖子。另外假设除了简单地通过 postId 查找帖子之外,我还想支持查找给定 userID 的所有帖子。我还想存储特定于用户的帐户详细信息,例如帐户创建日期。

对此进行建模的一种方法如下:

CREATE TABLE user (
userId int,
name varchar,
userDetail1,
userDetail2,
...,
PRIMARY KEY(userId)
);

CREATE TABLE post (
postId int,
postDetail1,
postDetail2,
...,
userId int,
PRIMARY KEY(postId)
);

根据我的阅读,这可能不是最佳选择,因为查询特定用户发布的帖子会导致内存效率低下。它是否正确? Cassandra 不支持在 userId 上对 post 表建立索引的原因是什么?

那么理想的解决方案是否如下?

CREATE TABLE user (
userId int,
name varchar,
userDetail1,
userDetail2,
...,
PRIMARY KEY(userId)
);

CREATE TABLE post (
postId int,
postDetail1,
postDetail2,
...,
userId int,
PRIMARY KEY(postId)
);

CREATE TABLE user_to_post (
userId int,
postId int,
userDetail1,
userDetail2,
...,
postDetail1,
postDetail2,
...,
PRIMARY KEY(userId, postId)
);

使用复合键,查询特定用户的帖子会更加高效。但采用这种设计,专门为帖子设置一个表会不会是多余的呢?同样,在此设计中,我希望查找特定用户发布的帖子,并且还希望快速链接到给定帖子的特定用户。我读了很多书,但对如何在 Cassandra 中准确设计一对多关系感到非常困惑。

最佳答案

这在很大程度上取决于您想要实现的所有请求。如果我理解正确的话,您希望能够:

  1. 通过 ID 获取特定用户
  2. 获取用户的帖子列表

我的大部分建议都来自优秀的页面 Basic Rules of Cassandra Data Modeling来自数据斯塔克斯。首先你必须明白这个问题没有明确的答案。它很大程度上取决于您尝试运行的查询以及您准备进行的权衡。例如:您预计特定用户的帖子数量真的很高(数千或数百万)吗?最常见的查询是什么(即围绕数据建模的查询)?

  • 第一个模型似乎打破了规则 2:最小化分区读取次数。 posts 表的分区键是帖子 ID(我假设是随机的,例如 UUID),结果将是帖子分布在整个集群中。因此,假设您有特定用户的帖子列表(这实际上需要非常低效的集群扫描),如果每个用户的帖子数量足够大,您的请求将必须到达集群中的每个服务器。这是最坏的情况,绝对不是您想要的。

  • 第二种模型本质上更好,因为每个请求都可以使用单个请求来实现。您正在用存储来换取读取性能,这通常是一件非常好的事情。我可能只是建议看看 Materialized Views (Cassandra 3.0+)这确实对您维护这样一个表有很大帮助 - 尽管完全按照您建议的 MV 进行操作很复杂,因为您只能提供一个表作为 View 源(即帖子)。

我还可以建议一个替代模型,它修复了第一个提案中的设计缺陷,而没有数据重复(这又不是问题),这里的关键是使用用户 ID 作为帖子的分区键,并将帖子 ID 作为聚类键。这允许特定用户的所有帖子存储在同一节点上,从而为请求特定用户的帖子提供良好的性能。

CREATE TABLE user (
userId int,
name varchar,
userDetail1,
userDetail2,
...,
PRIMARY KEY(userId)
);

CREATE TABLE post (
userId int,
postId int,
postDetail1,
postDetail2,
PRIMARY KEY(userId, postId)
);

此解决方案的主要缺点是它使检索单个帖子的过程稍微复杂化:除了帖子 ID 之外,您还必须知道用户 ID。这可能不是问题,因为两者本质上是相关的。

再次记住,除了非常简单的情况之外,在计算机科学中做任何事情的最佳方法都不可能存在。这取决于您想要最大化的指标集、您准备做出的权衡,以及对于存储系统更重要的是您将运行的工作负载。

关于cassandra - 在 Cassandra 中建模一对多关系的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45021003/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com