带你认识一下数仓的分区自动管理-6ren

带你认识一下数仓的分区自动管理

转载作者：知者更新时间：2024-03-12 12:35:28

**摘要：**本文从分区自动管理的作用、用法、原理等方面进行介绍。

本文分享自华为云社区《GaussDB(DWS) 分区自动管理介绍》，作者： Attila。

对于分区列为时间的分区表，分区自动管理功能可以自动创建新分区和删除过期分区，降低分区表的维护成本，改善查询性能。下面将从分区自动管理的作用、用法、原理等方面进行介绍。

1. 分区自动管理作用

为了便于查询和维护数据，客户通常使用分区列为时间的分区表来存储时间相关的数据，例如电商的订单信息、物联网采集的实时数据。这些时间相关的数据导入分区表时，需要保证分区表要有对应时间的分区，由于普通的分区表不会自动创建新的分区和删除过期分区，所以维护人员需要定期创建新分区和删除过期分区，提高了运维成本。

为解决上述问题，GaussDB(DWS) 引入了分区自动管理特性。使用者可通过设置表级参数period、ttl开启分区自动管理功能，使分区表可以自动创建新分区和删除过期分区，降低分区表的维护成本，改善查询性能。其中，period既表示新分区的时间范围，也表示自动创建新分区和自动删除过期分区的周期；ttl表示分区过期时间。period和ttl的值均为Interval类型，例如’1 hour’、‘1 day’、‘1 week’、‘1 month’、‘1 year’、 '1 month 2 days 3 hours’等。

1.1 自动创建新分区

分区自动管理每隔period的时间就会自动创建分区，每次创建一个或多个时间范围为period的新分区，以推进最大的分区边界时间，保证其大于nowTime+30*period。由于每次创建分区时，都动态地为未来时间创建了预留分区，所以只要有一次自动创建新分区成功，就可以保证在未来30个period的时间之内，都不会出现实时数据因为没有对应分区而导入失败的情况。

1.2 自动删除过期分区

边界时间早于nowTime-ttl的分区被认为是过期分区。分区自动管理每隔period的时间就会遍历检测所有分区，并删除其中的过期分区，如果所有的分区都是过期分区，则保留一个分区，并truncate该表。

2. 分区自动管理用法

2.1 分区管理功能约束

在使用分区管理功能时，需要满足如下约束：

1）不支持在小型机、加速集群、单机集群上使用。

2）不支持在8.1.3版本以下的版本中使用。

3）仅支持行存范围分区表、列存范围分区表、时序表以及冷热表。

4）分区键唯一并且类型仅支持timestamp、timestamptz、date类型。

5）不支持存在maxvalue分区。

6）(nowTime - boundaryTime) / period需要小于分区个数上限，其中nowTime为当前时间，boundaryTime为现有分区中最早的分区边界时间。

7）period、ttl取值范围为1 hour ~ 100 years。另外，在兼容Teradata或MySQL的数据库中，分区键类型为date时，period不能小于1 day。

8）表级参数ttl不支持单独存在，必须要提前或同时设置period，并且要大于或等于period。

9）集群在线扩容期间，自动增加分区会失败，但是由于每次增分区时，都预留了足够的分区，所以不影响使用。

2.2 开启分区管理功能

分区管理功能是和表级参数period、ttl绑定的，只要成功设置了表级参数period，即开启了自动创建新分区功能；成功设置了表级参数ttl，即开启了自动删除过期分区功能。第一次自动创建分区或删除分区的时间为设置period或ttl后30秒。

有两种开启分区管理功能的方式，具体如下：

1）建表时指定period、ttl

该方式适用于新建分区管理表时使用。新建分区管理表有两种语法，一种是建表时指定分区，另一种是建表时不指定分区。

建分区管理表时如果指定分区，则语法规则和建普通分区表相同，唯一的区别就是会指定表级参数period、ttl，具体示例如下。在该示例中，分区过期时间为7 days，新分区的时间范围以及自动分区任务周期为1 day。

CREATE TABLE CPU1(	
    id integer,		
    IP text,	
    time timestamp
) with (TTL='7 days',PERIOD='1 day')
partition by range(time)
(	
    PARTITION P1 VALUES LESS THAN('2022-01-05 16:32:45'),
    PARTITION P2 VALUES LESS THAN('2022-01-06 16:56:12')
);

建分区管理表时可以只指定分区键不指定分区，此时将创建两个默认分区，这两个默认分区的分区时间范围均为period。其中，第一个默认分区的边界时间是大于当前时间的第一个整时/整天/整周/整月/整年的时间，具体选择哪种整点时间取决于period的最大单位；第二个默认分区的边界时间是第一个分区边界时间加period。假设当前时间是2022-02-17 16:32:45，各种情况的第一个默认分区的分区边界选择如下表：

建表时不指定分区的具体示例如下：

CREATE TABLE CPU2(
    id integer,	
    IP text,	
    time timestamp
) with (TTL='7 days',PERIOD='1 day')
partition by range(time);

2）使用alter table set的方式设置period、ttl

该方式适用于给一张满足分区管理约束的普通分区表增加分区管理功能。

假设cpu3表是一张满足分区管理约束的普通分区表，给该表增加分区管理功能的示例如下：

-- 同时开启自动创建和自动删除分区功能
ALTER TABLE cpu3 SET (PERIOD='1 day',TTL='7 days');
-- 只开启自动创建分区功能
ALTER TABLE cpu3 SET (PERIOD='1 day');
-- 只开启自动删除分区功能，如果没有提前开启自动创建分区功能，则开启失败
ALTER TABLE cpu3 SET (TTL='7 days');

2.3 修改分区管理功能

修改分区管理功能主要是修改period和ttl，可以通过alter table set的方式修改。

假设cpu4表是一张分区管理表，修改其period和ttl示例如下：

-- 同时修改period
ALTER TABLE cpu4 SET (TTL='10 days',PERIOD='2 days');

2.4 关闭分区管理功能

使用alter table reset的方式可以删除表级参数period、ttl，进而关闭相应的分区管理功能。需要注意的是，不能在存在ttl的情况下，单独删除period。另外，时序表不支持alter table reset。

假设cpu5表是一张具有period和ttl的分区管理表，关闭其分区管理功能示例如下：

-- 同时关闭自动创建和自动删除分区功能
ALTER TABLE cpu5 RESET (PERIOD,TTL);
-- 只关闭自动删除分区功能
ALTER TABLE cpu5 RESET (TTL);
-- 只关闭自动创建分区功能,如果该表有ttl参数，则关闭失败
ALTER TABLE cpu5 RESET (PERIOD);

3.分区自动管理原理

3.1 基本原理

分区管理的实现依托了pg_task自动调度任务，即设置period/ttl时，向scheduler.pg_task表中插入了自增/自减分区管理任务，其中自增分区任务的任务内容为proc_add_partition(relname, period)函数，自减分区任务为proc_drop_partition(relname, ttl)函数，两种任务的调用周期均为period，第一次执行时间为任务插入时间后30秒。

使用管理员权限，可以查看scheduler.pg_task表中任务具体的信息，例如任务内容(what字段)、任务执行周期(interval字段)、任务上一次成功执行的时间(actual_end_time字段)、任务状态(task_status字段)。当自动调度任务执行失败时，用户可以复制scheduler.pg_task表中分区管理任务的what字段，然后手动执行该任务。查看scheduler.pg_task表以及手动执行自增分区任务示例如下：

my_database=# SELECT what,interval FROM scheduler.pg_task;
                             what                             | interval
--------------------------------------------------------------+----------
 call proc_add_partition('public.cpu1', interval '1 day');    | 1 day
 call proc_drop_partition('public.cpu1', interval '7 days');  | 1 day
(2 rows)

my_database=# call proc_add_partition('public.cpu1', interval '1 day');
 proc_add_partition
--------------------

(1 row)

3.2 proc_add_partition(relname regclass, boundaries_interval interval)

该函数用于自动添加分区，具体实现流程如下图。函数运行时，会在分区表现有分区边界的基础上，创建多个时间范围为boundaries_interval的新分区，直到新的boundary距离当前时间大于29个boundaries_interval，之后再额外多创建一个分区，保证该函数运行时，一定会创建一个新分区。

3.3 proc_drop_partition (relname regclass, older_than interval)

该函数用于自动删除过期分区。函数运行时，会遍历分区表所有分区，并删除其中boundary早于(now_time - older_than)的分区；如果所有分区都满足删除条件，则保留一个分区，并truncate该表。

点击关注，第一时间了解华为云新鲜技术~

文章推荐：小案例：利用Python获取Windows电脑WiFi密码

文章推荐： SpringBoot到底是什么？

文章推荐： Vue路由传参的两种方式

Neo4j 分区
是一种在 Neo4j 分区之间进行物理分离的方法吗？这意味着以下查询将转到 node1: Match (a:User:Facebook) 虽然此查询将转到另一个节点(可能托管在 docker 上)
非企业服务器上的 SQL 分区？
我尝试在我的 SQL 服务器上使用分区函数对我的一个大表进行分区，但我收到一条错误消息 “只能在SQL Server企业版中创建分区功能。只有SQL Server企业版支持分区。” 所以我想知道没有企
hadoop - hadoop中的文件拆分/分区
在hadoop文件系统中，我有两个文件，分别是X和Y。通常，hadoop制作的文件X和Y的大小为64 MB。是否可以强制hadoop划分两个文件，以便从X的32 MB和Y的32 MB中创建一个64 M
组合键的 Cassandra 分区
据我了解，如果我们有一个主键，则使用该键对数据进行分区并将其存储在节点中(例如使用随机分区器)。现在我不确定的是，如果我有多个键(又名复合键)，是用于分区数据的键的组合还是它将是第一个主键？例如，
SSAS 分区，多少太多了
我正在向我的 SSAS 多维数据集添加分区，我想知道是否有多个分区可以保留在下面？多少太多了，最佳实践限制是 20 还是 200？有没有人可以分享任何真实世界的知识？最佳答案这是 another
MySQL 分区 - 主键和唯一记录的错误
我有一个包含大约 200 万条记录的大表，我想对其进行分区。我将 id 列设置为 PRIMARY AUTO_INCRMENT int (并且它必须始终是唯一的)。我有一列“theyear”int(4
Mysql 分区 - 如何对包含唯一列的表进行列表分区？
我正在做 mysql 列表分区。我的表数据如下 ---------------------------------------- id | unique_token | city | student_
具有大量插入和删除的表的 MySQL 分区
我有一个表，我们每天在其中插入大约 2000 万个条目(没有任何限制的盲插入)。我们有两个外键，其中一个是对包含大约 1000 万个条目的表的引用 ID。我打算删除此表中超过一个月的所有数据，因为不
真实示例中的 MySQL 分区
我想在一款足球奇幻游戏中尝试使用 MySQL Partitioning，该游戏的用户分布在联赛中，每个联赛都有一个用户可以买卖球员的市场。当很多用户同时玩时，我在这张表中遇到了一些僵局(在撰写本文时大
带有变量的 jQuery 分区
我是 jQuery 的新手，想知道是否可以获取一些变量并将它们的除法作为 CSS 宽度。到目前为止我在这里: var x = $(".some-container").length; var y =
c++ - 分区、斯特林数和第一个切比雪夫多项式的递归函数
所以我正在做家庭作业，我需要为分区、斯特林数(第一类和第二类)和第一类的切比雪夫多项式创建递归函数。我的程序应该能够让用户输入一个正整数 n，然后创建名为 Partitions.txt、Stirlin
python - 分区(如果适用)
我在数据框中有一列，其中包含大约 1,4M 行聊天对话，其中每个单元格中的一般格式为 (1): “名称代理 : 对话” 但是，并非列中的所有单元格都采用这种格式。有些单元格只是 (2): “对话” 我
html - "Collapsible"<分区>
我在尝试隐藏 a 时遇到了一些问题，直到用户单击某个元素为止。 HTML 看起来像: BRAND item 1 item 2 item 3
【kafka】-分区-消费端负载均衡
一.为什么kafka要做分区？因为当一台机器有可能扛不住（类比：就像redis集群中的redis-cluster一样，一个master抗不住写，那么就多个master去抗写）
postgresql - 分区(和拆分)值以填充槽
我有一些销售数据，我需要发送存储在单独表中的可用槽中的数量。销售数据示例: id数量112131415369 create table sales (id serial primary key, q
GlusterFS - 为什么不推荐使用 root 分区？
我计划设置多个节点以使用 glusterfs 创建分布式复制卷我使用主(也是唯一)分区上的目录在两个节点上创建了一个 gluster 复制卷。 gluster volume create vol_d
sql - 在窗口函数内过滤(通过...分区)？
我正在尝试使用 sum() over (partition by) 但在总和中过滤。我的用例是将每个产品的 12 个月累计到一个月的条目，因此: ITEM MONTH SALES Item
scala - 如何从单个枚举器中生成多个枚举器(分区、拆分、..)
是否可以创建多个 Enumerators出单Enumerator ? 我正在寻找的相当于 List.partition返回 (List[A], List[A]) ，比如 List().partitio
Yocto - 创建并填充一个单独的/home 分区
我正在创建一个基于 x86 的非常简单的 Yocto 图像。我希望/文件系统是只读的，所以我设置了 IMAGE_FEATURES_append = " read-only-rootfs " 在原件的
list - Scala 分区/收集用法
是否可以使用一次 collect 调用来创建 2 个新列表？如果没有，我该如何使用分区来做到这一点？最佳答案 collect(在TraversableLike上定义并在所有子类中可用)与集合和Par

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城