cassandra - Cassandra 3.0更新了SSTable格式-6ren

cassandra - Cassandra 3.0更新了SSTable格式

转载作者：行者123 更新时间：2023-12-04 13:37:48

24

4

根据this问题，Cassandra的存储格式已在3.0中更新。

如果以前可以使用cassandra-cli来查看SSTable的构建方式，则可以得到以下内容:

[default@test] list phonelists;
-------------------
RowKey: scott
=> (column=, value=, timestamp=1374684062860000)
=> (column=phonenumbers:bill, value='555-7382', timestamp=1374684062860000)
=> (column=phonenumbers:jane, value='555-8743', timestamp=1374684062860000)
=> (column=phonenumbers:patricia, value='555-4326', timestamp=1374684062860000)
-------------------
RowKey: john
=> (column=, value=, timestamp=1374683971220000)
=> (column=phonenumbers:doug, value='555-1579', timestamp=1374683971220000)
=> (column=phonenumbers:patricia, value='555-4326', timestamp=137468397122

最新版本的Cassandra的内部正式外观是什么样的？你能举个例子吗？

我可以使用哪种实用程序以上面列出的方式查看Cassandra中表的内部表示形式，但是使用新的SSTable格式？

我在互联网上发现的所有内容是分区标题存储列名称的方式，行存储聚类值的方式，并且没有重复的值。

我该怎么看？

最佳答案

在3.0之前的版本中，sstable2json是一个有用的实用程序，可帮助您了解SSTables中数据的组织方式。此功能目前在cassandra 3.0中不存在，但最终会有替代方法。在此之前，我和Chris Lohfink都为Cassandra 3.0开发了sstable2json(sstable-tools)的替代方案，您可以使用它来了解数据的组织方式。在CASSANDRA-7464中有一些关于将其引入适当的 Cassandra 的讨论。

A key differentiator between the storage format between older verisons of Cassandra and Cassandra 3.0 is that an SSTable was previously a representation of partitions and their cells (identified by their clustering and column name) whereas with Cassandra 3.0 an SSTable now represents partitions and their rows.

您可以通过这些更改的主要开发人员访问 blog post来详细了解这些更改，他们非常努力地详细解释了这些更改。

您将看到的最大好处是，在一般情况下，由于一些关键的增强功能消除了CQL引入的许多开销，因此数据大小会缩小(在某些情况下会大大减少)。

这是显示C * 2和3之间差异的示例。

架构:

create keyspace demo with replication = {'class': 'SimpleStrategy', 'replication_factor': 1};
use demo;
create table phonelists (user text, person text, phonenumbers text, primary key (user, person));
insert into phonelists (user, person, phonenumbers) values ('scott', 'bill', '555-7382');
insert into phonelists (user, person, phonenumbers) values ('scott', 'jane', '555-8743');
insert into phonelists (user, person, phonenumbers) values ('scott', 'patricia', '555-4326');
insert into phonelists (user, person, phonenumbers) values ('john', 'doug', '555-1579');
insert into phonelists (user, person, phonenumbers) values ('john', 'patricia', '555-4326');

sstable2json C * 2.2输出:

[
{"key": "scott",
 "cells": [["bill:","",1451767903101827],
           ["bill:phonenumbers","555-7382",1451767903101827],
           ["jane:","",1451767911293116],
           ["jane:phonenumbers","555-8743",1451767911293116],
           ["patricia:","",1451767920541450],
           ["patricia:phonenumbers","555-4326",1451767920541450]]},
{"key": "john",
 "cells": [["doug:","",1451767936220932],
           ["doug:phonenumbers","555-1579",1451767936220932],
           ["patricia:","",1451767945748889],
           ["patricia:phonenumbers","555-4326",1451767945748889]]}
]

sstable-tools toJson C * 3.0输出:

[
  {
    "partition" : {
      "key" : [ "scott" ]
    },
    "rows" : [
      {
        "type" : "row",
        "clustering" : [ "bill" ],
        "liveness_info" : { "tstamp" : 1451768259775428 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-7382" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "jane" ],
        "liveness_info" : { "tstamp" : 1451768259793653 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-8743" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "patricia" ],
        "liveness_info" : { "tstamp" : 1451768259796202 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-4326" }
        ]
      }
    ]
  },
  {
    "partition" : {
      "key" : [ "john" ]
    },
    "rows" : [
      {
        "type" : "row",
        "clustering" : [ "doug" ],
        "liveness_info" : { "tstamp" : 1451768259798802 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-1579" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "patricia" ],
        "liveness_info" : { "tstamp" : 1451768259908016 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-4326" }
        ]
      }
    ]
  }
]

虽然输出更大(更多是该工具的结果)。您可以看到的主要区别是:

数据现在是分区及其行(包括单元格)的集合，而不是分区及其单元格的集合。

时间戳现在位于行级别(liveness_info)，而不是单元级别。如果某些行单元的时间戳不同，则新的存储引擎会进行增量编码以节省空间，并在单元级别上关联差异。这也包括TTL。可以想象，如果您有很多非关键列，那么可以节省大量空间，因为不需要重复时间戳。

群集信息(在这种情况下，我们是基于“人”群集的)现在显示在行级别而不是单元级别，这节省了大量开销，因为群集列值不必位于单元级别。

我应该注意，在这个特定的示例数据案例中，由于只有1个非集群列，因此无法完全实现新存储引擎的优势。

这里还有许多其他未显示的改进(例如，存储行级范围逻辑删除的功能)。

关于cassandra - Cassandra 3.0更新了SSTable格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34570367/

24

4

0

文章推荐： Qt - 信号槽中的参数

文章推荐： wpf - WPF MVVM ListBox 中的多项选择

Cassandra 没有压缩 sstables？
nodetool cfstats 显示以下输出: Read Count: 746287 Read Latency: 8.772114064696291 ms. Write Count: 135629
Cassandra 控制 SSTable 大小
有没有办法控制 SSTable 的最大大小，例如 100 MB，这样当 CF 的数据实际超过 100MB 时，Cassandra 会创建下一个 SSTable？最佳答案不幸的是，答案并不是那么简单
computer-science - 什么是 SSTable？
在 BigTable/GFS 和 Cassandra 术语中，SSTable 的定义是什么？最佳答案排序字符串表(借自google)是一个键/值字符串对的文件，按键排序关于computer-sc
nosql - Cassandra SSTable 和压缩
所以我正在研究 Cassandra 并试图了解其架构，并且我正在阅读 wiki 中的以下页面: http://wiki.apache.org/cassandra/MemtableSSTable 因此，
database - 理解 SSTable 不变性
我试图更好地理解 Cassandra 中 sstables 的不变性。当数据存在于 memtable 中时，在插入操作或更新/删除操作中会发生什么非常清楚。但是不清楚当我想修改已经被刷新的数据时会发生
Cassandra12 错误 - 无法打开不兼容的 SSTable!当前版本ic
使用自制软件安装 cassandra12 后，它会退出并显示以下消息: java.lang.RuntimeException: Can't open incompatible SSTable! Cur
Cassandra LeveledCompactionStrategy 和每次读取的高 SSTable 数
我们使用的是 cassandra 2.0.17，我们有一个包含 50% 选择、40% 更新和 10% 插入(无删除)的表。为了对此类表具有较高的读取性能，我们发现建议使用 LeveledCompac
cassandra - sstableexpiredblockers : what to do having blocking SSTables in Cassandra?
我已经意识到一些 sstables 不会被丢弃，即使它们只包含墓碑。使用手动主要压缩这些 sstables 被删除。也许它需要将 unchecked_tombstone_compaction 与
cassandra - Cassandra 何时从 SSTable 中删除数据
在 Cassandra 2.x 中，当我删除一列或多列时，它们会在 Memtable 中收到一个逻辑删除，但数据不会被删除。在某个时刻，Memtable 会刷新到 SSTable，其中包括已删除的数据
cassandra - cassandra 如何从 sstables 读取计数器列？
我正在尝试使用 sstable2json 实用程序将 sstables 转换为 json。它工作正常，但对于计数器列，它给出了一个非常长的字符串值。我的建表语句:创建表计数器1 (值计数器，名称变
cassandra - cassandra 如何查询另一个节点的 SSTable 中存在的数据
根据我在 cassandra 中的理解当客户端将数据写入单个服务器时，它会写入提交日志(仅追加日志而没有随机搜索)。然后将数据放入驻留在内存中的 MEMTable 中。然后确认写入成功。当 MEMT
database - Cassandra 中 SSTable 不变性对磁盘使用的影响
根据: http://www.datastax.com/docs/1.0/ddl/column_family#about-column-family-compression RDBMS 看到压缩导致性
cassandra - 在正在运行的节点中将 cassandra 快照文件复制到 sstable 文件上是否安全？
阅读 nodetool 标记的问题后编辑。我们每天拍摄我们的单节点 cassandra 数据库的快照。如果我想在该节点上或在运行不同 cassandra 实例的临时服务器上恢复快照，我的理解是我必须
cassandra - 针对实时 sstables 运行 sstableverify 是否安全？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
nosql - Cassandra 数据库中的 commitLog 和 SSTables
我最近开始使用 Cassandra 数据库。我已经在本地机器中安装了单节点集群。我正在使用 Cassandra 1.2.3。我在互联网上阅读这篇文章，发现了这一行- Cassandra writes
cassandra - 使用 LeveledCompactionStrategy 时是否可以检查 sstable 属于哪个级别？
当使用 LeveledCompactionStrategy 时，sstables 被组织在“级别”中。是否可以查看文件属于哪个级别？背景:我有一堆我最终会压实的墓碑。我很好奇这些墓碑到底有多少层。
ubuntu - 由于 sstable 损坏，无法启动 Cassandra
在我运行之后:- sudo service cassandra start 然后是 sudo service cassandra status 我得到一个无法访问 Cassandra 的 pidfil
sql - 带有 SSTable 附加二级索引的 Cassandra 与关系数据库
我是Cassandra等nosql数据库的新手，目前看到这个二级索引和sstable附加二级索引。有些我对在 Cassandra 中使用二级索引的目的感到困惑，关系数据库和带二级索引的 Cassand
database - 数据库索引的排序字符串表(SSTable)或 B+ 树？
使用两个数据库来说明这个例子:CouchDB和 Cassandra . CouchDB CouchDB 使用 B+ 树作为文档索引(使用 a clever modification 在其仅附加环境中工
cassandra - 更好地理解 SSTables 格式 big vs bti
我在哪里可以找到有关哪个版本的 Cassandra 支持哪个版本的 SSTables 的更多信息。最近我注意到 DSE Cassandra 正在生成 SSTables bti ，而 Apache C

首页

博学

6Ren·AI

商城

cassandra - Cassandra 3.0更新了SSTable格式