postgresql - Postgres count(*) 优化思路-6ren

postgresql - Postgres count(*) 优化思路

转载作者：行者123 更新时间：2023-11-29 12:19:44

50

4

我目前正在从事一个项目，该项目涉及跟踪用户及其使用我的数据库(RDMS 的 PostgreSQL)的操作，并且在尝试对每个用户的出现执行 COUNT(*) 时遇到了问题。我想要的是能够有效地计算每个用户出现在每个记录中的次数，并且还能够查看特定上的计数strong>日期范围。

那么，问题是我们如何实现从表内容中统计用户出现的总次数，以及我们如何统计某个日期范围内的总次数。

我尝试过的

您可能知道，Postgres 不能很好地支持使用索引的 COUNT(*)，因此我们必须考虑其他方法来减少它查看的记录数以加快查询速度。所以我的第一个方法是创建一个表来跟踪用户有与他们相关的日志消息的次数，以及在哪一天(类似于物化 View 背后的想法，但我不想不断刷新物化 View 用我的计数查询)。这是我想出的:

CREATE TABLE users_counts(user varchar(65536), counter int default 0, day date);

CREATE RULE inc_user_date_count 
AS ON INSERT TO main_table 
DO ALSO UPDATE users_counts SET counter = counter + 1 
WHERE user = NEW.user AND day = DATE(NEW.date_);

每次在我的“main_table”中插入一条新记录时，我们都会更新当前的 users_counts 表以增加日期等于新记录日期且用户名相同的记录。

p>

注意“main_table”中的 date_ 列是时间戳，因此我必须将新记录 date_ 转换为 DATE 类型。

问题是，如果当天的新表“users_count”中不存在用户列值，那么什么都不会更新。

这是我的问题:

我如何编写规则，以便我们检查当天是否存在用户，如果存在，则增加该计数器，否则插入用户、日期和计数器为 1 的新行；

我还想知道我的方法是否可行，或者是否有任何我没有想过的想法。随着我的数据库的增长，执行计数的效率越来越低，所以我想避免任何性能瓶颈。

编辑 1:我实际上能够通过创建一个单独的规则来解决这个问题，但我不确定这是否正确:

CREATE RULE test_insert AS ON INSERT TO main_table 
DO ALSO INSERT INTO users_counts(user, counter, day) 
SELECT NEW.user, 1, DATE(NEW.date) 
WHERE NOT EXISTS (SELECT user FROM users.log_messages WHERE user = NEW.user_);

基本上，如果用户不存在于我名为 user_counts 的 CACHED 表中，并且上面的第一条规则更新计数，则会发生插入。

我不确定的是我怎么知道什么时候首先调用哪个规则，是更新规则还是插入。而且必须有更好的方法，我如何结合这两个规则？这可以用一个函数来完成吗？

最佳答案

的确，当涉及到 count(*) 查询时，postgresql 是出了名的慢。但是，如果您确实有一个限制条目数的 where 子句，则查询会快得多。如果您使用的是 postgresql 9.2 或更新版本，则此查询将与在 mysql 中一样快，因为在 9.2 中添加了仅索引扫描，但最好解释分析您的查询以确保。

我的解决方案有意义吗？

只要您的解释分析显示未使用仅索引扫描，就可以了。基于触发器的解决方案，例如您已经采用的解决方案，得到了广泛的使用。但是正如您已经意识到的那样，初始状态出现了问题(无论是进行更新还是插入)。

先调用哪个规则

Multiple rules on the same table and same event type are applied in alphabetical name order.

来自 http://www.postgresql.org/docs/9.1/static/sql-createrule.html这同样适用于触发器。如果您希望首先执行特定规则，请更改其名称，使其按字母顺序排在前面。

如何结合这两个规则？

一个解决方案是修改您的规则以执行 upsert (查看该页面底部的示例更新插入)。另一种是用初始值填充计数器表。诀窍是同时创建触发器以避免错误。这blog post解释得很好。

虽然初始设置会很慢，但每个单独的插入可能会更快。两个相反的因素是 WHERE NOT EXISTS 查询的缓慢与捕获异常的开销。

Tip: A block containing an EXCEPTION clause is significantly more expensive to enter and exit than a block without one. Therefore, don't use EXCEPTION without need.

获取上面链接的 postgresql 文档页面。

关于postgresql - Postgres count(*) 优化思路，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33091728/

50

4

0

文章推荐： postgresql - 合并多个结果表并对结果进行最终查询

文章推荐： php - 连接mysql中的两个表并在表中显示答案

文章推荐： ios - 设置颜色 CFAttributedStringRef

一文搞清楚MySQL count(*)、count(1)、count(col)区别
目录 count作用测试 count(*) count(1) count(col) count(id):统计id count(inde
MySQL count(1)、count(*)、count(字段)的区别
目录 1.初识COUNT 2.COUNT(字段)、COUNT(常量)和COUNT(*)之间的区别 3.COUNT(*)的优化 MyIS
sql - SQL Server 2008 中 select count(*)、count(0)、count(100)、count(Id) 之间的区别？
以下 SQL Server 2008 语句之间有什么区别？ SELECT COUNT(*) FROM dbo.Regular_Report SELECT COUNT(0) FROM dbo.Regul
python - 为什么是 str.count ('' ) ≠ (from str.count ('A' ) + str.count ('B' ) + ... + str.count ('Z' ))
如果字符串(短语)中只有元音，它(对我而言)说True；否则说 False。我不明白为什么它总是返回 False，因为 (x >= x) 总是返回 True。我感谢任何人检查此查询的解决方案。 (st
【MySQL】MySQL count(*) count(1) 实现方式以及各种 count 对比
1.概述在这个文章之前，我一直用count(1) 查询所有数据，以前我们都是说 count(*) 是最慢的。但是这个博客恰恰相反。对于 count(主键 id) 来说，InnoDB 引擎会遍历整张
sql - COUNT(*) 与 COUNT(1) 与 COUNT(pk) : which is better?
这个问题已经有答案了: Count(*) vs Count(1) - SQL Server (13 个回答) 已关闭 8 年前。我经常发现这三种变体: SELECT COUNT(*) FROM Fo
sql - 为什么 count(1)、count(column) 和 count(*) 的成本相同？
为什么三个查询的成本相同？我想至少应该有一个更快。否则，只使用关键字 COUNT() 而不是 COUNT(parameter) 就可以了。例如，以下是不依赖于参数的 COUNT() 示例实现: wh
mysql - 如何在连接表上查询 COUNT 并返回 count=0 和 count>0 的记录
我有一个“产品”表和一个“评论”表。我想编写一个查询来返回每个产品的评论的 COUNT 和 AVG。并且如果没有评论，我希望它为 COUNT 和 AVG 返回 0/null。产品表 +-----
iOS 应用崩溃 -[NSCFString count] : when trying to get count of NSMutableArray if count is only 1
我会保持简短和亲切，因为我确信我缺少的是一些简单的东西。我正在尝试获取一个 NSMutableArray 的计数，它可以包含可变数量的对象(id 号)。数组是从 JSon 数据创建的，数组本身是完美创
Splunk Query Count of Count
我想知道查询计数的计数。查询是 sourcetype="cargo_dc_shipping_log" OR sourcetype="cargo_dc_deliver_log" | stats cou
count - sqlalchemy COUNT 和 IF
任何人都知道我如何在 SQL 炼金术中进行计数 COUN(IF(table_row = 1 AND table_row2 =2),1,0) 我做了这样的东西， func.COUNT(func.IF((
MySQL COUNT where 和 COUNT all
我有一个有四列的表(销售)； id, user_id, product_id, and date_added. 我需要统计某个用户已售出的具有特定 id 的产品数量，并获取该用户当月售出的产品总数。
MySQL count of count，将一个表的结果与另一个表一起使用
我是来问这个问题的实现的 MYSQL count of count? 我的问题是将我从一个表中提取结果的结果联系起来，使用它们来查询同一数据库的另一个表 (抱歉，我不是强大的 xySQL)。我有一个
MySQL COUNT(*) GROUP BY HAVING COUNT=?
这是我的查询 SELECT COUNT(*) as total, toys, date FROM T1 WHERE (date >= '2012-06-26'AND date '0') UNION
mysql - COUNT 和同一查询中的子 COUNT
我有 2 个表:成员，订单。 Members: MemberID, DateCreated Orders: OrderID, DateCreated, MemberID 我想找出给定月份中新成员的数
mysql - mySQL/SQL 中的 count(0)、count(1).. 和 count(*) 有什么区别？
我最近在一次采访中被问到这个问题。我在 mySQL 中尝试了这个，并得到了相同的结果(最终结果)。All 给出了该特定表中的行数。谁能解释它们之间的主要区别。最佳答案没什么，除非您在表格中指定字段
count - 桌面 : Count Distinct returns higher value than Count (if connected to Google Big Query)
我有一个包含 2157 条记录的表，假设有 3 列(A、B、C)，我知道在 A 列中有 2154 个不同的值。使用连接到 BigQuery 的 Tableau Desktop(及其自身的功能)，我得
sql - 每辆车相对有 Count(For that Day), Count for last 10 days 和 Count of last 20 days
我试图查看当天的车辆销量，并创建另外两个列来告诉我过去 10 天的销量和过去 20 天的销量。同一天和同一辆车可能有多个销售。我的目标是获取不同的车辆和日期并查看他们的销售数量。 N 天计数应与该行中
MySQL SELECT 1 vs SELECT `field_id` AND COUNT 1 vs COUNT (*) or COUNT (`field_id` ) 性能明智
我有一个非常简单的问题。我想知道某个数据库行是否存在。我通常使用: SELECT 1 FROM `my_table` WHERE `field_x` = 'something' 然后我获取结果: $
java - 一个循环如何由两个线程完成？说由 ist 线程从 count=1 循环到 count=4 并由第二个线程循环 count =5 到 8？
我想要的输出的描述:我想要两个线程 Gaurav 和 john 完成一个 while 循环(从 1 到 8)，这样无论哪个线程启动 ist，都会运行 5 次迭代(即直到 count=5 ) ，然后进入

首页

博学

6Ren·AI

商城

postgresql - Postgres count(*) 优化思路