cassandra - 在 Cassandra 中有大量写入和一些读取的表。主键搜索需要 30 秒。 (队列)-6ren

cassandra - 在 Cassandra 中有大量写入和一些读取的表。主键搜索需要 30 秒。 (队列)

转载作者：行者123 更新时间：2023-12-04 22:47:41

30

4

在 Cassandra 中设置一个表，设置如下:

主键列

shard - 1 到 1000 之间的整数

last_used - 时间戳

值列:

value - 一个 22 个字符的字符串

使用此表的示例:

shard     last_used          | value
------------------------------------
457       5/16/2012 4:56pm     NBJO3poisdjdsa4djmka8k    >--     Remove from front...
600       6/17/2013 5:58pm     dndiapas09eidjs9dkakah       | 
...(1 million more rows)                                    |
457       NOW                  NBJO3poisdjdsa4djmka8k    <--     ..and put in back

该表用作一个巨大的队列。很多线程都试图“弹出”最低 last_used 的行值，然后更新 last_used值到当前时刻。这意味着一旦读取一行，因为 last_used是主键的一部分，该行被删除，然后是具有相同 shard 的新行, value ，并更新 last_used时间被添加到表中，在“队列的末尾”。 shard是不是因为很多进程都在尝试 pop将最老的一行从队列的前面移开并将其放在后面，如果只有一个人可以同时访问队列，它们将严重相互瓶颈。这些行被随机分成 1000 个不同的“碎片”。每次线程从队列的开头“弹出”一行时，它都会选择一个当前没有其他线程使用的分片(使用 redis)。
天哪，我们一定是哑巴了!
我们遇到的问题是这个操作变得非常缓慢，大约 30 秒，这是一个虚拟的永恒。
我们只使用 Cassandra 不到一个月，所以我们不确定我们在这里做错了什么。我们已经得到一些迹象，也许我们不应该在同一张 table 上写和读这么多。我们不应该在 Cassandra 中这样做吗？或者我们的工作方式或我们配置它的方式是否存在一些细微差别，我们需要更改和/或调整？如何解决这个问题？
更多信息

我们正在使用 MurMur3Partitioner(新的随机分区器)

该集群目前在 9 台服务器上运行，每台服务器具有 2GB RAM。

复制因子为 3

非常感谢!

最佳答案

这是你不应该使用 Cassandra 的事情。您遇到性能问题的原因是因为 Cassandra 必须扫描成堆的墓碑才能找到剩余的事件列。每次删除某些内容时，Cassandra 都会写入一个墓碑，这是该列已被删除的标记。在进行压缩之前，实际上不会从磁盘中删除任何内容。在压缩 Cassandra 时查看墓碑并确定哪些列已死，哪些列仍然活着，将死的扔掉(但也有 GC 恩典，这意味着为了避免列的虚假复活，Cassandra 将墓碑保留在周围再过一段时间)。

由于您不断添加和删除列，因此将会有大量的墓碑，并且它们将分布在许多 SSTable 中。这意味着 Cassandra 需要做大量的开销工作才能将一行拼凑起来。

阅读 blog post "Cassandra anti-patterns: queues and queue-like datasets"了解更多详情。它还向您展示了如何跟踪查询以自己验证问题。

从您的描述中并不完全清楚什么是更好的解决方案，但听起来很像 RabbitMQ 这样的消息队列，或者 Kafka 可能是更好的解决方案。它们具有恒定的流失和 FIFO 语义，而 Cassandra 则不然。

有一种方法可以让 Cassandra 的查询不那么繁重，您可以尝试一下(尽管我仍然会说 Cassandra 是这项工作的错误工具):如果您可以在查询中包含时间戳，您应该主要点击实时列.例如。添加 last_used > ? (其中 ? 是时间戳)到查询。这要求您对第一个时间戳有一个粗略的了解(并且不要通过查询来找到它，这将同样昂贵)，因此它可能对您不起作用，但它会减轻一些负担 Cassandra 。

关于cassandra - 在 Cassandra 中有大量写入和一些读取的表。主键搜索需要 30 秒。 (队列)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17159099/

30

4

0

文章推荐： haskell - 在 Haskell 中循环的函数式非递归方法

文章推荐： linq - 体面的免费 Linq 调试器

文章推荐： .net - 使用 Inno Setup 在 Windows 8 上安装 .Net 3.5

cassandra - 将数据从 cassandra 迁移到 cassandra
我们有 2 个 cassandra 集群，第一个有旧数据，第二个有新数据。现在我们想要将旧数据从第一个集群移动或复制到第二个集群。什么是最好的方法来做到这一点以及如何做到这一点？我们正在使用 DS
cassandra - OpsCenter for Cassandra 是否会降低 Cassandra 的速度？
我正在考虑安装 OpsCenter 来监控我们在 RackSpace VM 上运行的 24 节点 Cassandra 集群。过去我听说 OpsCenter 减慢了集群速度。我有点担心 OpsCente
cassandra - Cassandra 中没有回滚，那么 Cassandra 是如何删除失败的写入的呢？
假设我有一个复制因子(RF)= 2 的 2 节点集群。我使用一致性 2 触发插入。当客户端等待响应时，Cassandra 开始写入这 2 个节点。中间一个节点失败，无法完成写入，而另一节点上的写入成
cassandra - Apache Cassandra 与 Datastax Cassandra
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
cassandra - Cassandra 是否可以就地更新？
我在 Cassandra 中有一个表，其中我用 1000 多个条目填充了一些行(每行有 10000 多列)。行中的条目更新非常频繁，基本上只是一个字段(它是一个整数)被更新为不同的值。列的所有其他值保
cassandra - Cassandra 在丢弃突变时返回给客户什么？
当Cassandra端有“掉落的突变”时，它是否向调用客户端返回相应的失败？或者即使在服务器端丢弃相应的突变并导致数据丢失，它总是成功响应调用事务的调用客户端？在一个特定实例中，当我们的 TPS 约
cassandra - Cassandra 的哈希值是否跨多个表具有相同的值？
我有一个 Multi-Tenancy 应用程序，其中 tenantId 将成为每个查询的一部分，因此我将其放入所有表的分区键中。例子: CREATE TABLE users { tenantId t
cassandra - Cassandra 中的更新不是反模式吗？
根据 Datastax 文档，在 Cassandra 中先读后写是一种反模式。每当我们在 CQLSH 中使用 UPDATE 或使用 Datastax 驱动程序来设置几列(带有 IF 和集合更新)时，
cassandra - Cassandra 将数据存储在哪个节点上？
是否有命令或任何方式可以知道 Cassandra 的哪些节点上存储了哪些数据？我对 Cassandra 很陌生，在谷歌上搜索这个问题并没有多少运气。谢谢! 最佳答案您可以使用 nodetool
cassandra - 低基数列的二级索引 cassandra
我们有一个包含 1500 万条记录的表，而我们的表是一个 10 节点的 cassandra 集群。我们有一列有接近 20 个可重复值。是否建议在此列上建立二级索引？最佳答案假设在该列上完全均匀分布
cassandra - Cassandra 中允许的最大列数是多少
Cassandra 发布了它的 technical limitations但没有提到允许的最大列数。是否有最大列数？我需要存储 400 多个字段。这在 Cassandra 中可能吗？最佳答案每行的
cassandra - Cassandra 表中的多列
我想知道当表中有多个非 PK 列时会发生什么。我读过这个例子: http://johnsanda.blogspot.co.uk/2012/10/why-i-am-ready-to-move-to-cq
cassandra - Cassandra 中的结果顺序
我有两个关于 Cassandra 查询结果的问题。当我在 Cassandra 中对表进行“完全”选择(即 select * from table )时，是否保证结果将按分区标记的递增顺序返回？例如
cassandra - Cassandra 的赫克托尔
我无法为 Cassandra 设置 Hector。我已经浏览了 documentation和 Cassandra wiki .这些文档的问题在于，那里的很多信息都已经过时或过时(或者我缺乏知识)。无论
cassandra - Cassandra 压力测试
我正在使用 DataStax Enterprise 中 cassandra 中提供的压力测试。如果有人知道的话，我也想要一些关于它和 cassandra 的信息。 - 首先，压力测试使用哪些节点？我的
cassandra - Cassandra 中的列排序
当我在 CQL 中创建表时，列的顺序是否必须精确不是在主键和中不是聚类列: CREATE TABLE user ( a ascii, b ascii, c ascii,
cassandra - 允许过滤实现@Cassandra
我有一张如下表: CREATE TABLE tab( categoryid text, id text, name text, author text, des
cassandra - cassandra 是行列数据库吗？
我正在尝试学习 Cassandra，但对术语感到困惑。很多情况下它表示该行存储键/值对。但是，当我定义一个表时，它更像是声明一个 SQL 表，即；您创建一个表并指定列名和数据类型。谁能澄清一下？
cassandra - Cassandra 中的数据审计
如何对 cassandra 数据实现审计？我正在寻找一个开源选项。 cassandra 是否有任何有助于审计的功能？我可以使用触发器将记录记录到表中吗？我关注了 Triggers示例并且能够将记录
cassandra - Cassandra 的可用性
我遇到了一个问题“me.prettyprint.hector.api.exceptions.HUnavailableException:: 可能没有足够的副本来处理一致性级别。”当我有 RF=1 时，

首页

博学

6Ren·AI

商城

cassandra - 在 Cassandra 中有大量写入和一些读取的表。主键搜索需要 30 秒。 (队列)