Cassandra 压力测试结果评估-6ren

Cassandra 压力测试结果评估

转载作者：行者123 更新时间：2023-12-04 23:48:05

24

4

一段时间以来，我一直在使用 cassandra-stress 工具来评估我的 cassandra 集群。

我的问题是我无法理解为我的特定用例生成的结果。

我的架构看起来像这样:

CREATE TABLE Table_test(
      ID uuid,
      Time timestamp,
      Value double,
      Date timestamp,
      PRIMARY KEY ((ID,Date), Time)
) WITH COMPACT STORAGE;

我在自定义 yaml 文件中解析了这些信息并使用了参数 n=10000 , threads=100其余的是默认选项( cl=one 、 mode=native cql3 等)。 Cassandra 集群是一个 3 节点 CentOS VM 设置。

自定义 yaml 文件的一些细节如下:

insert:
    partitions: fixed(100)
    select: fixed(1)/2
    batchtype: UNLOGGED

columnspecs:
    -name: Time
     size: fixed(1000)
    -name: ID
     size: uniform(1..100)
    -name: Date
     size: uniform(1..10)
    -name: Value
     size: uniform(-100..100)

到目前为止，我的观察如下:

与 n=10000和时间:fixed(1000) ，插入的行数为 1000 万。 (10000*1000=10000000)

行键/分区的数量是 10000(i.e n) ，其中一次取 100 个分区(这意味着 100 *1000 = 100000 个键值对)，其中一次处理 50000 个键值对。 (这是因为 select: fixed(1)/2 ~ 50%)

输出消息也证实了这一点:

Generating batches with [100..100] partitions and [50000..50000] rows (of[100000..100000] total rows in the partitions)

对于具有与上述相同配置的连续运行，我得到的结果如下:

Run Total_ops   Op_rate Partition_rate  Row_Rate   Time 
1     56           19     1885           943246     3.0
2     46           46     4648          2325498     1.0
3     27           30     2982          1489870     0.9
4     59           19     1932           966034     3.1
5     100          17     1730           865182     5.8

现在我需要了解的内容如下:

这些指标中的哪一个是吞吐量，即每秒插入的记录数？是 Row_rate、Op_rate 还是 Partition_rate？如果是 Row_rate，我可以在这里安全地得出结论，我每秒可以插入接近 100 万条记录吗？在这种情况下，对 Op_rate 和 Partition_rate 的含义有什么想法吗？

为什么每次运行的 Total_ops 变化如此之大？线程数是否与这种变化有关？关于我的 Cassandra 设置的稳定性，我可以得出什么结论？

我如何在这里确定每个线程的批量大小？在我的例子中，批量大小是 50000 吗？

提前致谢。

最佳答案

行率是您插入到数据库中的 CQL 行数。对于您的表，CQL 行是一个元组，如 (ID uuid, Time timestamp, Value double, Date timestamp) .

分区率是 C* 必须构建的分区数。分区是在 Cassandra 中保存和排序数据的数据结构，具有相同分区键的数据最终位于同一节点上。此分区率等于在时间窗口中插入的分区键中唯一值的数量。对于您的表，这将是 (ID,Date) 的唯一值

Op Rate 是实际必须完成的 CQL 操作的数量。根据您的设置，它正在运行未记录的批次以插入数据。每个插入包含大约 100 个分区(ID 和日期的唯一组合)，这就是为什么 OP Rate * 100 ~= Partition Rate

总 OP 应该包括所有操作，读和写。因此，如果您有任何读取操作，这些操作也将包括在内。

我建议更改您的批量大小以匹配您的工作负载，或者根据您的实际数据库使用情况将其保持在 1。这应该提供一个更现实的场景。此外，运行超过 100 次总操作的时间也很重要，这样才能真正了解系统的功能。当数据集的大小增加超过机器中的 RAM 量时，一些最大的困难就会出现。

关于Cassandra 压力测试结果评估，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28766693/

24

4

0

文章推荐：具有最大值的 SQL 列，其中单独的列 = 1

文章推荐： haskell - 编译器是什么意思？

文章推荐： eclipse - JFace TableViewer 单元格中的小部件？

文章推荐： SQL Server 重建索引 - 脚本

cassandra - 将数据从 cassandra 迁移到 cassandra
我们有 2 个 cassandra 集群，第一个有旧数据，第二个有新数据。现在我们想要将旧数据从第一个集群移动或复制到第二个集群。什么是最好的方法来做到这一点以及如何做到这一点？我们正在使用 DS
cassandra - OpsCenter for Cassandra 是否会降低 Cassandra 的速度？
我正在考虑安装 OpsCenter 来监控我们在 RackSpace VM 上运行的 24 节点 Cassandra 集群。过去我听说 OpsCenter 减慢了集群速度。我有点担心 OpsCente
cassandra - Cassandra 中没有回滚，那么 Cassandra 是如何删除失败的写入的呢？
假设我有一个复制因子(RF)= 2 的 2 节点集群。我使用一致性 2 触发插入。当客户端等待响应时，Cassandra 开始写入这 2 个节点。中间一个节点失败，无法完成写入，而另一节点上的写入成
cassandra - Apache Cassandra 与 Datastax Cassandra
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
cassandra - Cassandra 是否可以就地更新？
我在 Cassandra 中有一个表，其中我用 1000 多个条目填充了一些行(每行有 10000 多列)。行中的条目更新非常频繁，基本上只是一个字段(它是一个整数)被更新为不同的值。列的所有其他值保
cassandra - Cassandra 在丢弃突变时返回给客户什么？
当Cassandra端有“掉落的突变”时，它是否向调用客户端返回相应的失败？或者即使在服务器端丢弃相应的突变并导致数据丢失，它总是成功响应调用事务的调用客户端？在一个特定实例中，当我们的 TPS 约
cassandra - Cassandra 的哈希值是否跨多个表具有相同的值？
我有一个 Multi-Tenancy 应用程序，其中 tenantId 将成为每个查询的一部分，因此我将其放入所有表的分区键中。例子: CREATE TABLE users { tenantId t
cassandra - Cassandra 中的更新不是反模式吗？
根据 Datastax 文档，在 Cassandra 中先读后写是一种反模式。每当我们在 CQLSH 中使用 UPDATE 或使用 Datastax 驱动程序来设置几列(带有 IF 和集合更新)时，
cassandra - Cassandra 将数据存储在哪个节点上？
是否有命令或任何方式可以知道 Cassandra 的哪些节点上存储了哪些数据？我对 Cassandra 很陌生，在谷歌上搜索这个问题并没有多少运气。谢谢! 最佳答案您可以使用 nodetool
cassandra - 低基数列的二级索引 cassandra
我们有一个包含 1500 万条记录的表，而我们的表是一个 10 节点的 cassandra 集群。我们有一列有接近 20 个可重复值。是否建议在此列上建立二级索引？最佳答案假设在该列上完全均匀分布
cassandra - Cassandra 中允许的最大列数是多少
Cassandra 发布了它的 technical limitations但没有提到允许的最大列数。是否有最大列数？我需要存储 400 多个字段。这在 Cassandra 中可能吗？最佳答案每行的
cassandra - Cassandra 表中的多列
我想知道当表中有多个非 PK 列时会发生什么。我读过这个例子: http://johnsanda.blogspot.co.uk/2012/10/why-i-am-ready-to-move-to-cq
cassandra - Cassandra 中的结果顺序
我有两个关于 Cassandra 查询结果的问题。当我在 Cassandra 中对表进行“完全”选择(即 select * from table )时，是否保证结果将按分区标记的递增顺序返回？例如
cassandra - Cassandra 的赫克托尔
我无法为 Cassandra 设置 Hector。我已经浏览了 documentation和 Cassandra wiki .这些文档的问题在于，那里的很多信息都已经过时或过时(或者我缺乏知识)。无论
cassandra - Cassandra 压力测试
我正在使用 DataStax Enterprise 中 cassandra 中提供的压力测试。如果有人知道的话，我也想要一些关于它和 cassandra 的信息。 - 首先，压力测试使用哪些节点？我的
cassandra - Cassandra 中的列排序
当我在 CQL 中创建表时，列的顺序是否必须精确不是在主键和中不是聚类列: CREATE TABLE user ( a ascii, b ascii, c ascii,
cassandra - 允许过滤实现@Cassandra
我有一张如下表: CREATE TABLE tab( categoryid text, id text, name text, author text, des
cassandra - cassandra 是行列数据库吗？
我正在尝试学习 Cassandra，但对术语感到困惑。很多情况下它表示该行存储键/值对。但是，当我定义一个表时，它更像是声明一个 SQL 表，即；您创建一个表并指定列名和数据类型。谁能澄清一下？
cassandra - Cassandra 中的数据审计
如何对 cassandra 数据实现审计？我正在寻找一个开源选项。 cassandra 是否有任何有助于审计的功能？我可以使用触发器将记录记录到表中吗？我关注了 Triggers示例并且能够将记录
cassandra - Cassandra 的可用性
我遇到了一个问题“me.prettyprint.hector.api.exceptions.HUnavailableException:: 可能没有足够的副本来处理一致性级别。”当我有 RF=1 时，

首页

博学

6Ren·AI

商城

Cassandra 压力测试结果评估