nosql - Cassandra 数据库中的 commitLog 和 SSTables-6ren

nosql - Cassandra 数据库中的 commitLog 和 SSTables

转载作者：行者123 更新时间：2023-12-02 22:04:15

25

4

我最近开始使用 Cassandra 数据库。我已经在本地机器中安装了单节点集群。我正在使用 Cassandra 1.2.3。

我在互联网上阅读这篇文章，发现了这一行-

Cassandra writes are first written to a commit log (for durability), and then to an in-memory table structure called a memtable. A write is successful once it is written to the commit log and memory, so there is very minimal disk I/O at the time of write. Writes are batched in memory and periodically written to disk to a persistent table structure called an SSTable (sorted string table).

为了理解上面的内容，我编写了一个简单的程序，它将使用 Pelops 客户端 写入 Cassandra 数据库。我能够将数据插入 Cassandra 数据库中。

现在我想看看我的数据是如何写入提交日志的以及提交日志文件在哪里？还有 SSTables 是如何生成的，以及我可以在本地框中找到它以及它包含的内容。

我想查看这两个文件，以便我可以更多地了解 Cassandra 在幕后的工作原理。

在我的 cassandra.yaml 文件中，我有这样的内容

# directories where Cassandra should store data on disk.
data_file_directories:
    - S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data

# commit log
commitlog_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\commitlog

# saved caches
saved_caches_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\savedcaches

但是当我打开commitLog时，首先它有很多数据，所以我的notepad++无法正确打开它，如果它被打开，由于某些编码或什么原因我无法正确看到。在我的数据文件夹中，我找不到任何东西？

这意味着这个文件夹对我来说是空的-

S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data\my_keyspace\users

我这里有什么遗漏的吗？谁能解释一下如何读取 commitLog 和 SSTables 文件以及在哪里可以找到这两个文件？以及每当我写入 Cassandra 数据库时幕后到底发生了什么。

更新:-

我用来插入 Cassandra 数据库的代码-

public class MyPelops {

    private static final Logger log = Logger.getLogger(MyPelops.class);

    public static void main(String[] args) throws Exception {


        // -------------------------------------------------------------
        // -- Nodes, Pool, Keyspace, Column Family ---------------------
        // -------------------------------------------------------------

        // A comma separated List of Nodes
        String NODES = "localhost";

        // Thrift Connection Pool
        String THRIFT_CONNECTION_POOL = "Test Cluster";

        // Keyspace
        String KEYSPACE = "my_keyspace";

        // Column Family
        String COLUMN_FAMILY = "users";

        // -------------------------------------------------------------
        // -- Cluster --------------------------------------------------
        // -------------------------------------------------------------

        Cluster cluster = new Cluster(NODES, 9160);

        Pelops.addPool(THRIFT_CONNECTION_POOL, cluster, KEYSPACE);

        // -------------------------------------------------------------
        // -- Mutator --------------------------------------------------
        // -------------------------------------------------------------

        Mutator mutator = Pelops.createMutator(THRIFT_CONNECTION_POOL);

        log.info("- Write Column -");

        mutator.writeColumn(
                COLUMN_FAMILY,
                "Row1",
                new Column().setName(" Name ".getBytes()).setValue(" Test One ".getBytes()).setTimestamp(new Date().getTime()));

        mutator.writeColumn(
                COLUMN_FAMILY,
                "Row1",
                new Column().setName(" Work ".getBytes()).setValue(" Engineer ".getBytes()).setTimestamp(new Date().getTime()));

        log.info("- Execute -");
        mutator.execute(ConsistencyLevel.ONE);

        // -------------------------------------------------------------
        // -- Selector -------------------------------------------------
        // -------------------------------------------------------------

        Selector selector = Pelops.createSelector(THRIFT_CONNECTION_POOL);

        int columnCount = selector.getColumnCount(COLUMN_FAMILY, "Row1",
                ConsistencyLevel.ONE);
        System.out.println("- Column Count = " + columnCount);

        List<Column> columnList = selector
                .getColumnsFromRow(COLUMN_FAMILY, "Row1",
                        Selector.newColumnsPredicateAll(true, 10),
                        ConsistencyLevel.ONE);
        System.out.println("- Size of Column List = " + columnList.size());

        for (Column column : columnList) {
            System.out.println("- Column: (" + new String(column.getName()) + ","
                    + new String(column.getValue()) + ")");
        }

        System.out.println("- All Done. Exit -");
        System.exit(0);
    }

}

我创建的键空间和列族-

create keyspace my_keyspace with placement_strategy = 'org.apache.cassandra.locator.SimpleStrategy' and strategy_options = {replication_factor:1};
use my_keyspace;
create column family users with column_type = 'Standard' and comparator = 'UTF8Type';

最佳答案

你的理解已经差不多了。但是，缺少一些细节。

所以用结构化的方式解释一下，cassandra写操作生命周期分为这几个步骤

提交日志写入
内存表写入
稳定写入

Cassandra 写入首先写入提交日志(为了持久性)，然后写入称为内存表的内存表结构。一旦写入提交日志和内存，写入就被认为是成功的，因此写入时的磁盘 I/O 非常少。当 memtable 空间不足时，即当键的数量超过一定限制(默认为 128)或达到持续时间(集群时钟)时，它就会被存储到 sstable、不可变空间中(这种机制称为 <强>法拉盛)。在 SSTable 上完成写入后，您可以在数据文件夹中看到相应的数据，在您的情况下为 S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data。每个SSTable主要由2个文件组成——索引文件和数据文件

索引文件包含 - 布隆过滤器和键偏移对
- 布隆过滤器:布隆过滤器是一种节省空间的概率数据结构，用于测试元素是否是集合的成员。误报是可能的，但误报则不然。 Cassandra 在执行键查找时使用布隆过滤器来节省 IO:每个 SSTable 都有一个与其关联的布隆过滤器，Cassandra 在执行任何磁盘查找之前都会检查该过滤器，从而几乎免费查询不存在的键
- (键，偏移量)对(指向数据文件)
数据文件包含实际的列数据

关于提交日志文件，这些是由 Cassandra 内部维护的加密文件，您无法正确看到任何内容。

更新:

Memtable 是一个内存缓存，其内容存储为键/列(数据按键排序)。每个列族都有一个单独的 Memtable，并从键中检索列数据。所以现在我希望您头脑清醒，了解为什么我们无法在磁盘中找到它们。

在您的情况下，您的内存表未满，因为内存表阈值尚未漂白但不会导致刷新。您可以了解更多关于MemtableThresholds here但建议不要触摸该转盘。

SSTableStructure:

您的数据文件夹
- 键空间
  - CF
    - 压缩信息.db
    - 数据.db
    - 过滤器.db
    - 索引.db
    - 统计.db
    - snapshots//如果拍摄快照

欲了解更多信息，请参阅sstable

关于nosql - Cassandra 数据库中的 commitLog 和 SSTables，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15857779/

25

4

0

文章推荐： amazon-s3 - PUT/同步所需的 s3cmd S3 权限

文章推荐： sql-server - 如何在T-SQL中检查一组数字是否连续？

文章推荐： google-cloud-ml - 没有名为 trainer 的模块

数据库
我的问题是如何在 python 中创建一个简单的数据库。我的例子是: User = { 'Name' : {'Firstname', 'Lastname'}, 'Address' : {'Street
mysql - iOS开发。数据库？数据库？什么是最好的方法？
我需要创建一个与远程数据库链接的应用程序! mysql 是最好的解决方案吗？ Sqlite 是唯一的本地解决方案吗？我使用下面的方法，我想知道它是否是最好的方法! NSString *evento
java 应用程序无法连接到远程 MySQL 数据库，但可以连接到本地 MySQL 数据库
给定两台 MySQL 服务器，一台本地，一台远程。两者都有一个包含表 bohica 的数据库 foobar。本地服务器定义了用户 'myadmin'@'%' 和 'myadmin'@'localhos
java - 灵活查询适用于 HANA 数据库，但不适用于 HSQL 数据库
我有以下灵活的搜索查询 Select {vt:code},{vt:productcode},{vw:code},{vw:productcode} from {abcd AS vt JOIN wxyz
mysql - 从原始数据文件恢复 MySQL 数据库 [XAMPP | MySQL |数据库]
好吧，我的电脑开始运行有点缓慢，所以我重置了 Windows，保留了我的文件。因为我的大脑还没有打开，所以我忘记事先备份我的 MySQL 数据库。我仍然拥有所有原始文件，因此我实际上仍然拥有数据库，但
android - 如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)？
如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)？请，任何帮助将不胜感激。最佳答案 1)如果要转换 db 的结构，则应使用任何 DB 建模工具:
django - 实际上我将我的 django 数据库 sqlite3 连接到 Mysql 数据库，每当我迁移时我都会收到此错误
系统检查发现了一些问题: 警告:？:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
django - 实际上我将我的 django 数据库 sqlite3 连接到 Mysql 数据库，每当我迁移时我都会收到此错误
系统检查发现了一些问题: 警告:？:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
android - 如何在 phonegap 数据库中使用 android 数据库/作为 phonegap 数据库
我想在相同的 phonegap 应用程序中使用 android 数据库。更多说明: 我创建了 phonegap 应用程序，但 phonegap 应用程序不支持服务，所以我们已经在 java 中为 a
javascript - 将日期插入 mysql 数据库 [我正在使用 php 和 xampp mysql 数据库]
Time Tracker function clock() { var mytime = new Date(); var seconds
php - MySQL如何从年份(参数)、weekOfYear(参数)、时间(数据库)和dayofweek(数据库)创建时间戳？
我需要在现有项目上实现一些事件的显示。我无法更改数据库结构。在我的 Controller 中，我(从 ajax 请求)传递了一个时间戳，并且我需要显示之前的 8 个事件。因此，如果时间戳是(转换后)
performance - : {REST API, 网站} --> {数据库} 或 {网站} --> {REST API} --> {数据库} 哪个更好？
我有一个可以收集和显示各种测量值的产品(不会详细介绍)。正如人们所期望的那样，显示部分是一个数据库+建立在其之上的网站(使用 Symfony)。但是，我们可能还会创建一个 API 来向第三方公开数据
sql-server - Azure SQL 数据库 - 查询速度明显慢于 Azure VM 上的 SQL 数据库
我们将 SQL Server 从 Azure VM 迁移到 Azure SQL 数据库。 Azure VM 为 DS2_V2、2 核、7GB RAM、最大 6400 IOPS Azure SQL 数据
java - MongoDB 如何在 Java 本地测试 MongoDB 数据库，比如 H2 和 sql 数据库？
我正在开发一个使用 MongoDB 数据库的程序，但我想问在通过 Java 执行 SQL 时是否可以使用内部数据库进行测试，例如 H2？最佳答案你可以尝试使用Testcontainers Test
sql - 如何从 unix 终端连接到 Microsoft SQL Server 数据库？我必须连接 SQL Server 2008 数据库
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。已关闭 9 年前。此问题似乎与 a specific programming problem, a sof
python - 尝试使用 MSI 身份验证从 Azure ML 服务连接 Azure SQL 数据库(无需用户名和密码即可连接 Azure 数据库)
我正在尝试使用 MSI 身份验证(无需用户名和密码)从 Azure 机器学习服务连接 Azure SQL 数据库。我正在尝试在 Azure 机器学习服务上建立机器学习模型，目的是我需要数据，这就是我
数据库；空场似乎不空
我在我的 MySQL 数据库中使用这个查询来查找 my_column 不为空的所有行: SELECT * FROM my_table WHERE my_column != ""; 不幸的是，许多行在
数据库 |选择不同的记录
我有那个基地:http://sqlfiddle.com/#!2/e5a24/2这是 WordPress 默认模式的简写。我已经删除了该示例不需要的字段。如您所见，我的结果是“类别 1”的两倍。我喜欢
数据库。提取过滤列的数据
我有一张这样的 table : mysql> select * from users; +--------+----------+------------+-----------+ | userid
数据库 |高级分面搜索
我有表: CREATE TABLE IF NOT EXISTS `category` ( `id` int(11) NOT NULL, `name` varchar(255) NOT NULL

首页

博学

6Ren·AI

商城

nosql - Cassandra 数据库中的 commitLog 和 SSTables