【clickhouse】ClickHouse表引擎 MergeTree 数据生命周期-6ren

【clickhouse】ClickHouse表引擎 MergeTree 数据生命周期

转载作者：知者更新时间：2024-03-13 08:52:27

1.概述

转载：ClickHouse表引擎 MergeTree 数据生命周期

TTL（Time To Live）表示数据的存活时间，在 Merge 中可以为某个字段或者整个表设置TTL。
如果设置列级别的 TTL，那么到期时会删除这一列的数据
如果设置表级别的 TTL，那么到期时会删除整个表的数据
如果同时设置了列级别和表级别的 TTL，那么会以先到期的为主。
无论是列级别还是表级别的 TTL 都要依靠 DateTime 或 Date 类型的字段，通过对这个字段的 Interval 操作，来表述 TTL 的过期时间。
INTERVAL 的完整操作包括：SECOND、MINUTE、HOUR、DAY、WEEK、MONTH、QUARTER 和 YEAR

-- 设置数据存活时间是 create_time 的三天后
TTL create_time + INTERVAL 3 DAY

-- 设置数据存活时间是 create_time 的三个月后
TTL create_time + INTERVAL 3 MONTH

2.列级别 TTL

设置列级别的 TTL，需要在建表时设置列的 TTL 表达式
主键不能被设置 TTL

-- 创建表并设置 TTL 字段
-- create_time 是事件类型的字段，
-- code1 和 code2 均被设置了 TTL，
-- 存活时间为create_time的基础上向后10 秒和 15 秒
CREATE TABLE merge_column_ttl
(
    `id` String,
    `create_time` DateTime,
    `code1` String TTL create_time + INTERVAL 10 SECOND,
    `code2` UInt8 TTL create_time + INTERVAL 15 SECOND
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY id;

-- 查看表结构

describe merge_column_ttl;

┌─name────────┬─type─────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─────────────────────┐
│ id          │ String   │              │                    │         │                  │                                    │
│ create_time │ DateTime │              │                    │         │                  │                                    │
│ code1       │ String   │              │                    │         │                  │ create_time + toIntervalSecond(10) │
│ code2       │ Int32    │              │                    │         │                  │ create_time + toIntervalSecond(15) │
└─────────────┴──────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────────────────────────┘

-- 写入测试数据
insert into table merge_column_ttl values 
('A01',now(),'A01-code1','100'),
('A02',now() + INTERVAL 3 MINUTE,'A02-code1','99');

-- 当差不多过十秒后查看数据
select * from merge_column_ttl;

┌─id──┬─────────create_time─┬─code1─────┬─code2─┐
│ A01 │ 2021-06-23 15:50:17 │           │   100 │
│ A02 │ 2021-06-23 15:53:17 │ A02-code1 │    99 │
└─────┴─────────────────────┴───────────┴───────┘

-- 强制触发 TTL 清理
optimize table merge_column_ttl final;
-- 查看测试数据
select * from merge_column_ttl;

┌─id──┬─────────create_time─┬─code1─────┬─code2─┐
│ A01 │ 2021-06-23 15:50:17 │           │     0 │
│ A02 │ 2021-06-23 15:53:17 │ A02-code1 │    99 │
└─────┴─────────────────────┴───────────┴───────┘
-- 可以看到测试数据被还原成了 每个字段类型的默认值

修改字段 TTL

alter table merge_column_ttl modify column code1 String TTL create_time + INTERVAL 10 MINUTE;

-- 查看表结构
describe merge_column_ttl;

┌─name────────┬─type─────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─────────────────────┐
│ id          │ String   │              │                    │         │                  │                                    │
│ create_time │ DateTime │              │                    │         │                  │                                    │
│ code1       │ String   │              │                    │         │                  │ create_time + toIntervalMinute(10) │
│ code2       │ Int32    │              │                    │         │                  │ create_time + toIntervalSecond(15) │
└─────────────┴──────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────────────────────────┘

3.表级别 TTL

想要为整张表设置 TTL，需要在建表时设置表的 TTL 表达式

-- 建表设置表的 TTL
CREATE TABLE merge_table_ttl
(
    `id` String,
    `create_time` DateTime,
    `code1` String TTL create_time + INTERVAL 10 SECOND,
    `code2` UInt8 
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY id
TTL create_time + INTERVAL 15 SECOND;

-- 写入测试数据

insert into table merge_table_ttl values 
('A01',now(),'A01-code1','100'),
('A02',now() + INTERVAL 3 MINUTE,'A02-code1','99');

-- 查看数据，这是还没有过期数据
select * from merge_table_ttl;

┌─id──┬─────────create_time─┬─code1─────┬─code2─┐
│ A01 │ 2021-06-23 16:26:12 │ A01-code1 │   100 │
│ A02 │ 2021-06-23 16:29:12 │ A02-code1 │    99 │
└─────┴─────────────────────┴───────────┴───────┘

-- 强制清理 TTL 数据
optimize table merge_table_ttl final;

-- 查看数据，这时 code1 有一行数据过期，被还原成默认值
select * from merge_table_ttl;

┌─id──┬─────────create_time─┬─code1─────┬─code2─┐
│ A01 │ 2021-06-23 16:26:12 │           │   100 │
│ A02 │ 2021-06-23 16:29:12 │ A02-code1 │    99 │
└─────┴─────────────────────┴───────────┴───────┘

-- 强制清理 TTL 数据
optimize table merge_table_ttl final;

-- 查看数据，这时 A01 这行数据过期已经被删掉
select * from merge_table_ttl;

┌─id──┬─────────create_time─┬─code1─────┬─code2─┐
│ A02 │ 2021-06-23 16:29:12 │ A02-code1 │    99 │
└─────┴─────────────────────┴───────────┴───────┘

修改表级别的 TTL

alter table merge_table_ttl modify ttl create_time + INTERVAL 15 MINUTE;

4. TTL 运行原理

如果一张表被设置了 TTL，在写入数据时，会以数据分区为单位，在每个分区目录中生成一个 ttl.txt 的文件，如 merge_table_ttl 表即被设置了列级别的 TTL 也被设置了表级别的 TTL，那么每个分区目录都会生成 ttl.txt 文件

cd /var/lib/clickhouse/data/db_merge/merge_table_ttl/202106_1_1_3

[root@node3 202106_1_1_3]# cat ttl.txt
ttl format version: 1
{"columns":[{"name":"code1","min":1624436962,"max":1624436962}],"table":{"min":1624436967,"max":1624436967}}

# 将上面的 json 格式化 并加上描述
# MergeTree 通过 json 结构的数据保存 ttl 的相关信息：
{
    "columns": [ # 用于保存 列级别的 TTL 信息
        {
            "name": "code1",
            "min": 1624436962,
            "max": 1624436962
        }
    ],
    "table": {# 用于保存 表级别的 TTL 信息
        "min": 1624436967,
        "max": 1624436967
    }
}

min 与 max 保存了当前分区内，TTL 指定日期字段的最大值，最小值分别与 INTERVAL 表达式计算后的时间戳。

如果将table 属性中的min 和 max 时间戳格式化，并分别与 create_time 的最大，最小取值作对比。

SELECT
    toDateTime('1624436967') AS ttl_min,
    toDateTime('1624436967') AS ttl_max,
    ttl_min - MIN(create_time) AS expire_min,
    ttl_max - MAX(create_time) AS expire_max
FROM merge_table_ttl

Query id: ad5dc6af-1f8c-41a2-829a-802ad702cfbe

┌─────────────ttl_min─┬─────────────ttl_max─┬─expire_min─┬─expire_max─┐
│ 2021-06-23 16:29:27 │ 2021-06-23 16:29:27 │         15 │         15 │
└─────────────────────┴─────────────────────┴────────────┴────────────┘

ttl.txt记录的 min，max 值恰好对应 create_time + INTERVAL 15 SECOND 的值。

MergeTree 处理 TTL 的大致逻辑如下：

MergeTree 以分区目录为单位，通过 ttl.txt 文件记录过期时间，并将其作为后续判断依据
每当写入一批数据时，都会基于 INTERVAL 表达式的计算结果为这个分区生成 ttl.txt文件
只有在 MergeTree 分区合并时，才会触发删除过期数据的逻辑。
在删除数据时，会使用贪婪算法，算法规则是尽可能找到会最早过期的，同时年纪又最老的分区（合并次数最多，MaxBlockNum最大）
如果一个分区的某个字段因为 TTL 到期，导致数据被全部删除，那么合并分区时在生成新分区将不会创建该字段的数据文件（.mrk、.bin）

MergeTree 处理 TTL 的其他事项：

TTL 的默认合并频率由MergeTree 的 merge_with_ttl_timeout 参数控制，默认 86400 秒，即 1 天，它维护一个专门的 TTL 队列。如果这个时间设置的过小会带来性能损耗。
除了被动触发 TTL，还可以使用optimize 命令强制触发合并。

--  触发一个分区的合并
optimize table table_name

-- 触发所有分区的合并
optimize table table_name final

Clickhouse 提供了控制全局 TTL 任务合并的方法，但是不能按照数据表停起

SYSTEM STOP/START MERGES

文章推荐： Spring security登录授权用户有效期简单例子

文章推荐：【Flink】FlinkSQL元数据验证

文章推荐：【Flink】Flink 源码阅读笔记（15）- Flink SQL 整体执行框架

文章推荐：【java】RMI教程：入门与编译方法远程

clickhouse - 通过 clickhouse 命令行连接到远程 clickhouse db
当我尝试通过 clickhouse 命令行连接到远程 clickhouse db 时:$ clickhouse-client -h some_ip.com --port 8123 -u some_us
【Clickhouse】ClickHouse 内部架构介绍
1.概述转载：ClickHouse 内部架构介绍官方原文链接：https://clickhouse.yandex/docs/en/development/architecture/ ClickHo
clickhouse - ClickHouse 耐用吗？
我知道 ClickHouse 没有 ACID ，因此我不希望它有 D可用性 ACID性。但是，问题是，如果服务器崩溃，是否有可能丢失插入内容？最佳答案 CH 不耐用。您可以在硬件自发重新启动时丢失
clickhouse - Clickhouse 中的多个小插件
我在 clickhouse 中有一个事件表(MergeTree)，并且想同时运行很多小插入。然而，服务器变得过载且无响应。此外，一些插入物丢失了。 clickhouse错误日志中有很多记录: 01:4
clickhouse - ClickHouse 中的时间比较
也许我错过了一些简单的事情，但我无法使时间过滤工作。这是我的示例查询: select toTimeZone(ts, 'Etc/GMT+2') as z from (select toDateTime
clickhouse - clickhouse 中同时查询太多
我们的 Clickhouse 服务器在峰值负载下运行小型查询时出现了几个异常: DB::Exception: Too much simultaneous queries. Maximum: 100
clickhouse - ClickHouse 中的时间比较
也许我错过了一些简单的事情，但我无法使时间过滤工作。这是我的示例查询: select toTimeZone(ts, 'Etc/GMT+2') as z from (select toDateTime
【clickhouse】clickhouse 副本与分片副本详解
1.概述转载：ClickHouse 11.副本与分片 1. 副本集群是副本和分片的基础，它将 clickhouse 的服务拓扑由单节点延伸到多个节点。 clickhouse 集群配置很灵活，既可以
【clickhouse】clickhouse 副本与分片分片详解
1.概述转载：【clickhouse】clickhouse 副本与分片分片详解 clickhouse 中每个服务器节点都可以被称为一个 shard（分片）。假设有 N 台服务器，每个服务器上都有
clickhouse - 使用 ClickHouse 折叠重叠时间间隔
我阅读了类似的问题，可以通过使用窗口函数使其工作，但是，由于 ClickHouse 似乎不支持它们，我正在寻找替代解决方案。给定像 (1, 5), (2, 3), (3, 8), (10, 15)
clickhouse - 有没有更好的方法来跨 clickhouse 集群查询系统表？
我们有一个适度的 clickhouse 集群，大约 30 个节点，并希望收集它的使用统计信息。我们希望使用针对系统表的预定查询来做到这一点，但使用普通查询只能获取您碰巧连接到的一个节点的信息，并且创建
clickhouse - ClickHouse 新手，无法创建本地主机
我是 Clickhouse 的新手，正在尝试入门。我已经安装了能够在我的计算机(ubuntu 16.04)上使用它所需的所有软件包，但是当我使用 clickhouse-client 命令时，我得到以下
clickhouse - 如何显示 ClickHouse 数据库中的表正在使用什么引擎？
是否有任何命令/SQL 可以显示 ClickHouse 数据库中的表正在使用什么引擎？ create table t (id UInt16, name String) ENGINE = Memory;
clickhouse - 为什么 ClickHouse 客户端返回多个表？
我对 Clickhouse 很陌生，我的第一次尝试似乎总是为 SELECT 生成这种输出: :) select * from test SELECT * FROM test ┌─s───┬───i─┐
clickhouse - 如何为 Clickhouse 设置管理员帐户？
我在 Windows 主机上的 docker 容器中运行 Clickhouse。我尝试创建一个帐户以使其成为管理员帐户。看起来默认用户没有创建其他帐户的权限。如何解决此错误并创建管理员帐户？ do
clickhouse - 更改 Clickhouse 中表中的列名称
有什么方法可以更改表并更改 clickhouse 中的列名称吗？我只发现更改了表名称，但没有以直接的方式更改单个列。谢谢。最佳答案该功能已推出here进入 v20.4。 ALTER TABLE
clickhouse - 了解 clickhouse 分区
我看到 clickhouse 为每个分区键(在每个节点中)创建了多个目录。文档说目录名称格式是:分区ID_最小块号_最大块号_级别。知道这里是什么水平吗？一个节点(一个表)上的 347 个不同的
clickhouse - Clickhouse 二级索引是否类似于 MySQL 普通索引？
我对何时使用二级索引感到困惑。我有以下代码脚本来定义 MergeTree 表，该表有十亿行。 create table t_mt( id UInt8, name String, job Stri
clickhouse - Clickhouse Buffer Table 是否适合实时摄取许多小插入？
我正在编写一个应用程序来绘制财务数据并与此类数据的实时源进行交互。由于任务的性质，可能会以一次一次交易的方式非常频繁地接收实时市场数据。我在本地使用数据库，而且我是唯一的用户。只有一个程序(我的中间件
clickhouse - 有没有办法为 clickhouse 创建 UDF？
在回答关于clickhouse的UDF的github ticket中，他们在2017年回答说不能在clickhouse中创建UDF。我想知道2020年现在有什么办法可以做到吗？最佳答案 ClickH

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城