gpt4 book ai didi

nosql - Cassandra 数据库中的 commitLog 和 SSTables

转载 作者:行者123 更新时间:2023-12-02 22:04:15 25 4
gpt4 key购买 nike

我最近开始使用 Cassandra 数据库。我已经在本地机器中安装了单节点集群。我正在使用 Cassandra 1.2.3

我在互联网上阅读这篇文章,发现了这一行-

Cassandra writes are first written to a commit log (for durability), and then to an in-memory table structure called a memtable. A write is successful once it is written to the commit log and memory, so there is very minimal disk I/O at the time of write. Writes are batched in memory and periodically written to disk to a persistent table structure called an SSTable (sorted string table).

为了理解上面的内容,我编写了一个简单的程序,它将使用 Pelops 客户端 写入 Cassandra 数据库。我能够将数据插入 Cassandra 数据库中。

现在我想看看我的数据是如何写入提交日志的以及提交日志文件在哪里?还有 SSTables 是如何生成的,以及我可以在本地框中找到它以及它包含的内容。

我想查看这两个文件,以便我可以更多地了解 Cassandra 在幕后的工作原理。

在我的 cassandra.yaml 文件中,我有这样的内容

# directories where Cassandra should store data on disk.
data_file_directories:
- S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data

# commit log
commitlog_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\commitlog

# saved caches
saved_caches_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\savedcaches

但是当我打开commitLog时,首先它有很多数据,所以我的notepad++无法正确打开它,如果它被打开,由于某些编码或什么原因我无法正确看到。在我的数据文件夹中,我找不到任何东西?

这意味着这个文件夹对我来说是空的-

S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data\my_keyspace\users

我这里有什么遗漏的吗?谁能解释一下如何读取 commitLog 和 SSTables 文件以及在哪里可以找到这两个文件?以及每当我写入 Cassandra 数据库时幕后到底发生了什么。

更新:-

我用来插入 Cassandra 数据库的代码-

public class MyPelops {

private static final Logger log = Logger.getLogger(MyPelops.class);

public static void main(String[] args) throws Exception {


// -------------------------------------------------------------
// -- Nodes, Pool, Keyspace, Column Family ---------------------
// -------------------------------------------------------------

// A comma separated List of Nodes
String NODES = "localhost";

// Thrift Connection Pool
String THRIFT_CONNECTION_POOL = "Test Cluster";

// Keyspace
String KEYSPACE = "my_keyspace";

// Column Family
String COLUMN_FAMILY = "users";

// -------------------------------------------------------------
// -- Cluster --------------------------------------------------
// -------------------------------------------------------------

Cluster cluster = new Cluster(NODES, 9160);

Pelops.addPool(THRIFT_CONNECTION_POOL, cluster, KEYSPACE);

// -------------------------------------------------------------
// -- Mutator --------------------------------------------------
// -------------------------------------------------------------

Mutator mutator = Pelops.createMutator(THRIFT_CONNECTION_POOL);

log.info("- Write Column -");

mutator.writeColumn(
COLUMN_FAMILY,
"Row1",
new Column().setName(" Name ".getBytes()).setValue(" Test One ".getBytes()).setTimestamp(new Date().getTime()));

mutator.writeColumn(
COLUMN_FAMILY,
"Row1",
new Column().setName(" Work ".getBytes()).setValue(" Engineer ".getBytes()).setTimestamp(new Date().getTime()));

log.info("- Execute -");
mutator.execute(ConsistencyLevel.ONE);

// -------------------------------------------------------------
// -- Selector -------------------------------------------------
// -------------------------------------------------------------

Selector selector = Pelops.createSelector(THRIFT_CONNECTION_POOL);

int columnCount = selector.getColumnCount(COLUMN_FAMILY, "Row1",
ConsistencyLevel.ONE);
System.out.println("- Column Count = " + columnCount);

List<Column> columnList = selector
.getColumnsFromRow(COLUMN_FAMILY, "Row1",
Selector.newColumnsPredicateAll(true, 10),
ConsistencyLevel.ONE);
System.out.println("- Size of Column List = " + columnList.size());

for (Column column : columnList) {
System.out.println("- Column: (" + new String(column.getName()) + ","
+ new String(column.getValue()) + ")");
}

System.out.println("- All Done. Exit -");
System.exit(0);
}

}

我创建的键空间和列族-

create keyspace my_keyspace with placement_strategy = 'org.apache.cassandra.locator.SimpleStrategy' and strategy_options = {replication_factor:1};
use my_keyspace;
create column family users with column_type = 'Standard' and comparator = 'UTF8Type';

最佳答案

你的理解已经差不多了。但是,缺少一些细节。

所以用结构化的方式解释一下,cassandra写操作生命周期分为这几个步骤

  • 提交日志写入
  • 内存表写入
  • 稳定写入

Cassandra 写入首先写入提交日志(为了持久性),然后写入称为内存表的内存表结构。一旦写入提交日志和内存,写入就被认为是成功的,因此写入时的磁盘 I/O 非常少。当 memtable 空间不足时,即当键的数量超过一定限制(默认为 128)或达到持续时间(集群时钟)时,它就会被存储到 sstable、不可变空间中(这种机制称为 <强>法拉盛)。在 SSTable 上完成写入后,您可以在数据文件夹中看到相应的数据,在您的情况下为 S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data。每个SSTable主要由2个文件组成——索引文件和数据文件

  • 索引文件包含 - 布隆过滤器和键偏移对

    • 布隆过滤器:布隆过滤器是一种节省空间的概率数据结构,用于测试元素是否是集合的成员。误报是可能的,但误报则不然。 Cassandra 在执行键查找时使用布隆过滤器来节省 IO:每个 SSTable 都有一个与其关联的布隆过滤器,Cassandra 在执行任何磁盘查找之前都会检查该过滤器,从而几乎免费查询不存在的键
    • (键,偏移量)对(指向数据文件)
  • 数据文件包含实际的列数据

关于提交日志文件,这些是由 Cassandra 内部维护的加密文件,您无法正确看到任何内容。

更新:

Memtable 是一个内存缓存,其内容存储为键/列(数据按键排序)。每个列族都有一个单独的 Memtable,并从键中检索列数据。所以现在我希望您头脑清醒,了解为什么我们无法在磁盘中找到它们。

在您的情况下,您的内存表未满,因为内存表阈值尚未漂白但不会导致刷新。您可以了解更多关于MemtableThresholds here但建议不要触摸该转盘。

SSTableStructure:

  • 您的数据文件夹
    • 键空间
      • CF
        • 压缩信息.db
        • 数据.db
        • 过滤器.db
        • 索引.db
        • 统计.db
        • snapshots//如果拍摄快照

欲了解更多信息,请参阅sstable

关于nosql - Cassandra 数据库中的 commitLog 和 SSTables,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15857779/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com