postgresql - 在 PostgreSQL 中计算和节省空间-6ren

postgresql - 在 PostgreSQL 中计算和节省空间

转载作者：行者123 更新时间：2023-11-29 11:05:42

24

4

我在 pg 中有一个这样的表:

CREATE TABLE t (
    a BIGSERIAL NOT NULL,               -- 8 b
    b SMALLINT,                         -- 2 b
    c SMALLINT,                         -- 2 b
    d REAL,                             -- 4 b
    e REAL,                             -- 4 b
    f REAL,                             -- 4 b
    g INTEGER,                          -- 4 b
    h REAL,                             -- 4 b
    i REAL,                             -- 4 b
    j SMALLINT,                         -- 2 b
    k INTEGER,                          -- 4 b
    l INTEGER,                          -- 4 b
    m REAL,                             -- 4 b
    CONSTRAINT a_pkey PRIMARY KEY (a)
);

以上加起来每行 50 个字节。我的经验是我需要另外 40% 到 50% 的系统开销，甚至没有任何用户创建的索引。因此，每行大约 75 个字节。我将在表中有很多行，可能超过 1450 亿行，因此表将增加 13-14 TB。如果有的话，我可以使用什么技巧来压缩这张表？以下是我可能的想法......

将实数值转换为整数。如果它们可以存储为 smallint，则每个字段可节省 2 个字节。

将列 b .. m 转换为数组。我不需要搜索这些列，但我确实需要能够一次返回一列的值。所以，如果我需要 g 列，我可以做类似的事情

SELECT a, arr[5] FROM t;

我可以使用数组选项节省空间吗？会不会有速度惩罚？

还有其他想法吗？

最佳答案

“俄罗斯方 block 列”

实际上，您可以做点什么，但这需要更深入的理解。关键字是对齐填充。 Every data type has specific alignment requirements .

您可以通过有利地对列进行排序，从而最大限度地减少因列之间 填充而损失的空间。以下(极端)示例会浪费大量物理磁盘空间:

CREATE TABLE t (
    e int2    -- 6 bytes of padding after int2
  , a int8
  , f int2    -- 6 bytes of padding after int2
  , b int8
  , g int2    -- 6 bytes of padding after int2
  , c int8
  , h int2    -- 6 bytes of padding after int2
  , d int8)

要每行节省 24 个字节，请改用:

CREATE TABLE t (
    a int8
  , b int8
  , c int8
  , d int8
  , e int2
  , f int2
  , g int2
  , h int2)   -- 4 int2 occupy 8 byte (MAXALIGN), no padding at the end

db<> fiddle here
<子>旧sqlfiddle

根据经验，如果您首先放置 8 字节的列，然后是 4 字节、2 字节和 1 字节的列，那么您就不会出错。

boolean、uuid (!) 和一些其他类型不需要对齐填充。 text、varchar 和其他“varlena”(可变长度)类型名义上需要“int”对齐(在大多数机器上为 4 字节)。但是我观察到磁盘格式没有对齐填充(与 RAM 不同)。最终，我在 note in the source code: 中找到了解释。

Note also that we allow the nominal alignment to be violated when storing "packed" varlenas; the TOAST mechanism takes care of hiding that from most code.

因此，只有当包含单个前导长度字节的(可能压缩的)数据超过 127 个字节时，才会强制执行“int”对齐。然后 varlena 存储切换到四个前导字节并需要“int”对齐。

通常，您最多可以在播放“列俄罗斯方 block ” 时每行节省几个字节。在大多数情况下，这些都不是必需的。但是，如果有数十亿行，它可能很容易意味着几千兆字节。

您可以使用函数 pg_column_size() 测试实际的列/行大小.
某些类型在 RAM 中占用的空间比在磁盘上占用的空间多(压缩或“打包”格式)。当使用 pg_column_size() 测试相同的值(或值行与表行)时，常量(RAM 格式)可以获得比表列更大的结果。

最后，有些类型可以是compressed or "toasted" (离线存储)或两者兼而有之。

如果可能，将NOT NULL 列移到前面，将具有许多NULL 值的列移到后面。 NULL 值直接从 null 位图提供，因此它们在行中的位置与 NULL 值的访问成本无关，但它们会增加计算位于右侧的列的偏移量(在行中更靠后)。

每个元组(行)的开销

项目标识符每行 4 个字节 - 不受上述注意事项的约束。
元组头至少有 24 个字节(23 + 填充)。 The manual on Database Page Layout:

There is a fixed-size header (occupying 23 bytes on most machines),followed by an optional null bitmap, an optional object ID field, andthe user data.

对于 header 和用户数据之间的填充，您需要知道服务器上的 MAXALIGN - 在 64 位操作系统上通常为 8 个字节(或在 32 位操作系统上为 4 个字节)。如果您不确定，请查看 pg_controldata .

在您的 Postgres 二进制目录 中运行以下命令以获得明确的答案:

./pg_controldata /path/to/my/dbcluster

The manual:

The actual user data (columns of the row) begins at the offsetindicated by t_hoff, which must always be a multiple of the MAXALIGNdistance for the platform.

因此，您通常通过将数据打包为 8 字节的倍数来获得最佳存储。

您发布的示例 没有任何好处。已经包得很紧了。在最后一个 int2 之后填充 2 个字节，在末尾填充 4 个字节。您可以在末尾将填充合并为 6 个字节，这不会改变任何内容。

每个数据页的开销

数据页大小通常为 8 KB。在这个级别上也有一些开销/膨胀:剩余量不足以容纳另一个元组，更重要的是死行或保留给 FILLFACTOR setting 的百分比。 .

磁盘大小还有几个其他因素需要考虑:

数组类型？

对于您正在评估的数组类型，您将为该类型添加24 字节的开销。另外，数组元素像往常一样占用空间。那里没有任何收获。

关于postgresql - 在 PostgreSQL 中计算和节省空间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2966524/

24

4

0

文章推荐： mysql - MySQL 中 LIMIT 和 JOIN 的奇怪问题

文章推荐： mysql - 根据行中的数据创建多列

文章推荐： macos - PostgreSQL 服务器不会在 Lion (Mac OS 10.7) 上关闭

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城