长行的 Cassandra 性能-6ren

长行的 Cassandra 性能

转载作者：行者123 更新时间：2023-12-04 06:07:14

32

4

我正在考虑在 Cassandra 中实现一个具有很长行(每行数十万到数百万列)的 CF。

使用完全虚拟的数据，我已将 200 万列插入到一行中(均匀间隔)。如果我执行切片操作以获得 20 列，那么当您在行的更下方执行切片操作时，我会注意到性能大幅下降。

对于大多数列，我似乎能够在 10-40 毫秒内提供切片结果，但是当您接近行尾时，性能遇到瓶颈，响应时间从 1,800,000 标记处的 43 毫秒逐渐增加到 214 毫秒在 1,900,000 和 435ms 在 1,999,900! (所有切片的宽度相等)。

我无法解释为什么当您到达行尾时性能会出现这种大幅下降。有人可以就 Cassandra 在内部做什么来造成这样的延迟提供一些指导吗？行缓存已关闭，几乎所有内容都是默认的 Cassandra 1.0 安装。

它应该能够支持每行多达 20 亿列，但以这种速度提高性能意味着它不能在实际情况下用于非常长的行。

非常感谢。

警告，我一次并行处理 10 个请求，这就是为什么它们比我预期的要慢一点，但这是对所有请求的公平测试，甚至只是串行执行它们，这很奇怪第 1,800,000 次和第 1,900,000 次记录之间的退化。

我还注意到，当每行只有 200,000 列时，仅对单个项目执行反向切片时的性能非常差:
query.setRange(end, start, false, 1);

最佳答案

一个很好的资源是 Aaron Morton 在 Cassandra 上的博客文章 Reversed Comparators .从文章:

Recall from my post on Cassandra Query Plans that once rows get to a certain size they include an index of the columns. And that the entire index must be read whenever any part of the index needs to be used, which is the case when using a Slice Range that specifies start or reversed. So the fastest slice query to run against a row was one that retrieved the first X columns in a row by only specifying a column count.

如果您主要从一行的末尾读取(例如，如果您按时间戳存储内容并且您主要想查看最近的数据)，则可以使用 Reversed Comparator它以降序存储您的列。这将为您提供更好(和更一致)的查询性能。

如果您的读取模式更随机，则最好将数据分区为多行。

关于长行的 Cassandra 性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9741522/

32

4

0

文章推荐： django 一对多关系

文章推荐： CUDA 4.1 printf() 错误

cassandra - 将数据从 cassandra 迁移到 cassandra
我们有 2 个 cassandra 集群，第一个有旧数据，第二个有新数据。现在我们想要将旧数据从第一个集群移动或复制到第二个集群。什么是最好的方法来做到这一点以及如何做到这一点？我们正在使用 DS
cassandra - OpsCenter for Cassandra 是否会降低 Cassandra 的速度？
我正在考虑安装 OpsCenter 来监控我们在 RackSpace VM 上运行的 24 节点 Cassandra 集群。过去我听说 OpsCenter 减慢了集群速度。我有点担心 OpsCente
cassandra - Cassandra 中没有回滚，那么 Cassandra 是如何删除失败的写入的呢？
假设我有一个复制因子(RF)= 2 的 2 节点集群。我使用一致性 2 触发插入。当客户端等待响应时，Cassandra 开始写入这 2 个节点。中间一个节点失败，无法完成写入，而另一节点上的写入成
cassandra - Apache Cassandra 与 Datastax Cassandra
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
cassandra - Cassandra 是否可以就地更新？
我在 Cassandra 中有一个表，其中我用 1000 多个条目填充了一些行(每行有 10000 多列)。行中的条目更新非常频繁，基本上只是一个字段(它是一个整数)被更新为不同的值。列的所有其他值保
cassandra - Cassandra 在丢弃突变时返回给客户什么？
当Cassandra端有“掉落的突变”时，它是否向调用客户端返回相应的失败？或者即使在服务器端丢弃相应的突变并导致数据丢失，它总是成功响应调用事务的调用客户端？在一个特定实例中，当我们的 TPS 约
cassandra - Cassandra 的哈希值是否跨多个表具有相同的值？
我有一个 Multi-Tenancy 应用程序，其中 tenantId 将成为每个查询的一部分，因此我将其放入所有表的分区键中。例子: CREATE TABLE users { tenantId t
cassandra - Cassandra 中的更新不是反模式吗？
根据 Datastax 文档，在 Cassandra 中先读后写是一种反模式。每当我们在 CQLSH 中使用 UPDATE 或使用 Datastax 驱动程序来设置几列(带有 IF 和集合更新)时，
cassandra - Cassandra 将数据存储在哪个节点上？
是否有命令或任何方式可以知道 Cassandra 的哪些节点上存储了哪些数据？我对 Cassandra 很陌生，在谷歌上搜索这个问题并没有多少运气。谢谢! 最佳答案您可以使用 nodetool
cassandra - 低基数列的二级索引 cassandra
我们有一个包含 1500 万条记录的表，而我们的表是一个 10 节点的 cassandra 集群。我们有一列有接近 20 个可重复值。是否建议在此列上建立二级索引？最佳答案假设在该列上完全均匀分布
cassandra - Cassandra 中允许的最大列数是多少
Cassandra 发布了它的 technical limitations但没有提到允许的最大列数。是否有最大列数？我需要存储 400 多个字段。这在 Cassandra 中可能吗？最佳答案每行的
cassandra - Cassandra 表中的多列
我想知道当表中有多个非 PK 列时会发生什么。我读过这个例子: http://johnsanda.blogspot.co.uk/2012/10/why-i-am-ready-to-move-to-cq
cassandra - Cassandra 中的结果顺序
我有两个关于 Cassandra 查询结果的问题。当我在 Cassandra 中对表进行“完全”选择(即 select * from table )时，是否保证结果将按分区标记的递增顺序返回？例如
cassandra - Cassandra 的赫克托尔
我无法为 Cassandra 设置 Hector。我已经浏览了 documentation和 Cassandra wiki .这些文档的问题在于，那里的很多信息都已经过时或过时(或者我缺乏知识)。无论
cassandra - Cassandra 压力测试
我正在使用 DataStax Enterprise 中 cassandra 中提供的压力测试。如果有人知道的话，我也想要一些关于它和 cassandra 的信息。 - 首先，压力测试使用哪些节点？我的
cassandra - Cassandra 中的列排序
当我在 CQL 中创建表时，列的顺序是否必须精确不是在主键和中不是聚类列: CREATE TABLE user ( a ascii, b ascii, c ascii,
cassandra - 允许过滤实现@Cassandra
我有一张如下表: CREATE TABLE tab( categoryid text, id text, name text, author text, des
cassandra - cassandra 是行列数据库吗？
我正在尝试学习 Cassandra，但对术语感到困惑。很多情况下它表示该行存储键/值对。但是，当我定义一个表时，它更像是声明一个 SQL 表，即；您创建一个表并指定列名和数据类型。谁能澄清一下？
cassandra - Cassandra 中的数据审计
如何对 cassandra 数据实现审计？我正在寻找一个开源选项。 cassandra 是否有任何有助于审计的功能？我可以使用触发器将记录记录到表中吗？我关注了 Triggers示例并且能够将记录
cassandra - Cassandra 的可用性
我遇到了一个问题“me.prettyprint.hector.api.exceptions.HUnavailableException:: 可能没有足够的副本来处理一致性级别。”当我有 RF=1 时，

首页

博学

6Ren·AI

商城

长行的 Cassandra 性能