sql - Postgres : huge table with (delayed) read and write access-6ren

sql - Postgres : huge table with (delayed) read and write access

转载作者：行者123 更新时间：2023-11-29 12:33:24

24

4

我有一个巨大的表(目前大约有 300 万行，预计会增加 1000 倍)每秒有很多插入。该表永远不会更新。

现在我必须对该表运行查询，这非常慢(正如预期的那样)。这些查询不必 100% 准确，如果结果是一天前的(但不是更早的)也没关系。

目前在两个单个整数列上有两个索引，我必须再添加两个索引(整数和时间戳列)以加快查询速度。

到目前为止我的想法:

将两个缺失的索引添加到表中
巨大的表上根本没有索引并将内容(作为日常任务)复制到第二个表(只是重要的行)，然后在第二个表上创建索引并在该表上运行查询？
对巨大的表进行分区
主/从设置(写入主设备并从从设备读取)。

就性能而言，哪个选项最好？你有什么其他的建议？

编辑:

这是表格(我已经标记了外键并稍微美化了查询):

CREATE TABLE client_log
(
   id                 serial          NOT NULL,
   logid              integer         NOT NULL,
   client_id          integer         NOT NULL,  (FOREIGN KEY)
   client_version     varchar(16),
   sessionid          varchar(100)    NOT NULL,
   created            timestamptz     NOT NULL,
   filename           varchar(256),
   funcname           varchar(256),
   linenum            integer,
   comment            text,
   domain             varchar(128),
   code               integer,
   latitude           float8,
   longitude          float8,
   created_on_server  timestamptz     NOT NULL,
   message_id         integer,                   (FOREIGN KEY)
   app_id             integer         NOT NULL,  (FOREIGN KEY)
   result             integer
);

CREATE INDEX client_log_code_idx ON client_log USING btree (code);
CREATE INDEX client_log_created_idx ON client_log USING btree (created);
CREATE INDEX clients_clientlog_app_id ON client_log USING btree (app_id);
CREATE INDEX clients_clientlog_client_id ON client_log USING btree (client_id);
CREATE UNIQUE INDEX clients_clientlog_logid_client_id_key ON client_log USING btree (logid, client_id);
CREATE INDEX clients_clientlog_message_id ON client_log USING btree (message_id);

还有一个示例查询:

SELECT 
    client_log.comment, 
    COUNT(client_log.comment) AS count 
FROM 
    client_log
WHERE 
    client_log.app_id = 33 AND
    client_log.code = 3 AND 
    client_log.client_id IN (SELECT client.id FROM client WHERE 
        client.app_id = 33 AND 
        client."replaced_id" IS NULL)
GROUP BY client_log.comment ORDER BY count DESC;

client_log_code_idx 是上述查询所需的索引。还有其他查询需要 client_log_created_idx 索引。

和查询计划:

Sort  (cost=2844.72..2844.75 rows=11 width=242) (actual time=4684.113..4684.180 rows=70 loops=1)
  Sort Key: (count(client_log.comment))
  Sort Method: quicksort  Memory: 32kB
  ->  HashAggregate  (cost=2844.42..2844.53 rows=11 width=242) (actual time=4683.830..4683.907 rows=70 loops=1)
        ->  Hash Semi Join  (cost=1358.52..2844.32 rows=20 width=242) (actual time=303.515..4681.211 rows=1202 loops=1)
              Hash Cond: (client_log.client_id = client.id)
              ->  Bitmap Heap Scan on client_log  (cost=1108.02..2592.57 rows=387 width=246) (actual time=113.599..4607.568 rows=6962 loops=1)
                    Recheck Cond: ((app_id = 33) AND (code = 3))
                    ->  BitmapAnd  (cost=1108.02..1108.02 rows=387 width=0) (actual time=104.955..104.955 rows=0 loops=1)
                          ->  Bitmap Index Scan on clients_clientlog_app_id  (cost=0.00..469.96 rows=25271 width=0) (actual time=58.315..58.315 rows=40662 loops=1)
                                Index Cond: (app_id = 33)
                          ->  Bitmap Index Scan on client_log_code_idx  (cost=0.00..637.61 rows=34291 width=0) (actual time=45.093..45.093 rows=36310 loops=1)
                                Index Cond: (code = 3)
              ->  Hash  (cost=248.06..248.06 rows=196 width=4) (actual time=61.069..61.069 rows=105 loops=1)
                    Buckets: 1024  Batches: 1  Memory Usage: 4kB
                    ->  Bitmap Heap Scan on client  (cost=10.95..248.06 rows=196 width=4) (actual time=27.843..60.867 rows=105 loops=1)
                          Recheck Cond: (app_id = 33)
                          Filter: (replaced_id IS NULL)
                          Rows Removed by Filter: 271
                          ->  Bitmap Index Scan on clients_client_app_id  (cost=0.00..10.90 rows=349 width=0) (actual time=15.144..15.144 rows=380 loops=1)
                                Index Cond: (app_id = 33)
Total runtime: 4684.843 ms

最佳答案

一般来说，在不断将与时间相关的数据插入数据库的系统中，我建议使用 partitioning根据时间。

这不仅是因为它可以缩短查询时间，还因为否则会使数据管理变得困难。无论您的硬件有多大，它的容量都会受到限制，因此您最终将不得不开始删除早于某个日期的行。您删除行的速率必须等于它们进入的速率。

如果您只有一个大表，并且使用 DELETE 删除旧行，您将留下大量需要清除的死元组。 autovacuum 将持续运行，耗尽宝贵的磁盘 IO。

另一方面，如果您根据时间进行分区，那么删除过期数据就像删除相关子表一样容易。

在索引方面 - 索引不是继承的，因此您可以在加载分区之前节省创建索引的时间。在您的用例中，您的分区大小可能为 1 天。这意味着索引不需要在插入数据时不断更新。根据需要使用额外的索引来执行查询会更加实用。

您的示例查询不会过滤“创建”时间字段，但您说其他查询会过滤。如果您按时间分区，并且小心构建查询的方式，约束排除将会启动，它只会包括与查询相关的特定分区。

关于sql - Postgres : huge table with (delayed) read and write access，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25542010/

24

4

0

文章推荐： oracle - 将触发器从 Oracle 11g 迁移到 Postgresql 8.4

文章推荐： mysql - 对连接表进行带有连接和 'where' 语句的子查询

文章推荐： java - 使用 EJB 锁定数据源中的实体/行的最佳实践

文章推荐： sql - 仅将表用于多重继承是一种不好的做法吗？

python - `asyncio.sleep(delay)` 是否保证至少休眠 `delay` 秒？
asyncio.sleep() 的阻塞表亲，time.sleep() , 不能保证它会在请求的时间内休眠。 The actual suspension time may be less than th
c# - await Task.Delay() 与 Task.Delay().Wait()
在 C# 中，我有以下两个简单示例: [Test] public void TestWait() { var t = Task.Factory.StartNew(() => {
c# - Task.Delay.ContinueWith 和使用 Task.Delay 进行异步等待之间有什么区别(如果有)？
这是一个 linqpad 示例，展示了在短暂延迟后异步执行方法的两种方法。这两个例子似乎做了完全相同的事情。我通常会实现第一个版本(使用 Task.Delay.ContinueWith)，但我也看到使
c# - Task.Delay.ContinueWith 和使用 Task.Delay 进行异步等待之间有什么区别(如果有)？
这是一个 linqpad 示例，展示了在短暂延迟后异步执行方法的两种方法。这两个例子似乎做了完全相同的事情。我通常会实现第一个版本(使用 Task.Delay.ContinueWith)，但我也看到使
jquery - 在 CSS3 transition-delay 和 jquery delay() 之间进行选择；
使用 jQuery，我逐渐将“go”类添加到 div div { tranform:translate(20px,20px); opacity:0;
swift - 为什么调用 audioplayer.play(atTime : delay) makes no sound regardless of the value of delay
期待: 当 audioplayer.play(atTime: 1) 被调用时，定时器重置为 0，音频播放器在第 1 秒播放现实: 我试过 delay = 0.000000001, 1, 100000
delay - .Net 4.5 和 Task.Yield vs Task.Delay 作为 DoEvents 的替代品？使用哪个？
我一直在阅读 .Net 4.5 中引入的 async/await 语法并对其有所了解。我找到了简单的示例，其中 Task.Yield 是要走的路，而不是 Application.DoEvents。我
delay - 在具有延迟的系统中调整pid
我需要在一个延迟很大的系统中调整PI(D)的增益。这是一个常见的温度 Controller ，但温度探头距离加热器较远。一些进一步的信息: 加热器响应上的任何变化，探头的响应都会延迟约10秒温度以1
ASP常用函数:Delay()
代码很短,但是很经典,单位是秒,就是未测试过服务器资源消耗怎么样: <% Function Delay(s)
JQuery delay() 不延迟
为什么这会立即清空文本(忽略延迟)？ $('#error_box_text').html('error text').delay(5000).html('') # jQuery 1.4 最佳答案 de
jquery - 回调.delay()
我有一个 $image，我 .fadeIn 和 .fadeOut，然后 .remove .fadeOut 完成。这是我的代码: $image .fadeIn() .fadeOut(func
JAVAFX : mouseOver and delay?
我希望用户将鼠标悬停在对撞机(只是一个透明矩形)上超过 2 或 3 秒时能够看到描述菜单。我目前正在使用 javaFX 扩展。我将程序设置为每当我将鼠标悬停在对撞机上时，它都会播放声音效果，但我希望
delay - HTA 脚本的休眠例程
在我创建的几个 .HTA 脚本中，我需要 VBScript WScript.Sleep 命令，它只是等待几毫秒而不使用 CPU。当我浏览网页时，似乎我不是唯一一个在寻找这个的人: https://ww
JavaFX : Delay TranslateTransition
我在 javaFX 中创建了一些节点。我需要为每个节点设置动画，以便使用 TranslateTransition 在 Pane 中的某个点到某个点之间进行转换。但我需要使每个节点使用不同的起点独立移动
delay - UIGestureRecognizerStateEnded 出现不必要的延迟
我需要在用户开始触摸屏幕、移动手指然后结束触摸时执行一些操作。触摸开始工作正常，也可以移动，但触摸结束运行有 0.5-1 秒的延迟。下面有一段代码: -(id) init { if (s
jquery - .delay() 时间之间的随机数
我正在寻找有关 jQuery 的 .delay 函数的帮助。我的网站上有一个弹出表单，我想在 2-3 分钟内随机弹出该表单。我了解如何使用 Math.random()，但我不了解如何使用它生成 120
JQuery delay() 函数被跳过
我无法获取一些 javascript 和 Jquery 来延迟适当的时间。我想更改一些文本，请等待 5 秒钟，然后弹出警报。代码如下: $('#result').html("Record has p
jQuery .delay() 不起作用
我有以下 JavaScript 片段: $("#dashboard").addClass("standby").delay(3000).removeClass("standby"); $(".acti
jQuery .delay() 不起作用
我有以下 JavaScript 片段: $("#dashboard").addClass("standby").delay(3000).removeClass("standby"); $(".acti
javascript - .delay() 仅适用于第一个动画
我已经编写了一个简单的 jQuery 淡入淡出插件，但我无法让延迟正常工作。它将在第一个项目上起作用，但之后它会被忽略 jQuery (function ($) { $.fn.setupQuo

首页

博学

6Ren·AI

商城

sql - Postgres : huge table with (delayed) read and write access