sql - 在未嵌套的 jsonb 列上优化 GROUP BY + COUNT DISTINCT-6ren

sql - 在未嵌套的 jsonb 列上优化 GROUP BY + COUNT DISTINCT

转载作者：行者123 更新时间：2023-12-03 16:20:45

25

4

我正在尝试优化 Postgres 中的查询，但没有成功。
这是我的表:

CREATE TABLE IF NOT EXISTS voc_cc348779bdc84f8aab483f662a798a6a (
  id SERIAL,
  date TIMESTAMP,
  text TEXT,
  themes JSONB,
  meta JSONB,
  canal VARCHAR(255),
  source VARCHAR(255),
  file VARCHAR(255)
);

我在 id 和 meta 列上有索引:

CREATE UNIQUE INDEX voc_cc348779bdc84f8aab483f662a798a6a_id ON voc_cc348779bdc84f8aab483f662a798a6a USING btree(id);
CREATE INDEX voc_cc348779bdc84f8aab483f662a798a6a_meta ON voc_cc348779bdc84f8aab483f662a798a6a USING btree(meta);

此表中有 62k 行。
我试图优化的请求是这样的:

SELECT meta_split.key, meta_split.value, COUNT(DISTINCT(id))
    FROM voc_cc348779bdc84f8aab483f662a798a6a
    LEFT JOIN LATERAL jsonb_each(voc_cc348779bdc84f8aab483f662a798a6a.meta)
    AS meta_split ON TRUE
    WHERE meta_split.value IS NOT NULL
    GROUP BY meta_split.key, meta_split.value;

在这个查询中，meta 是一个像这样的字典:

{
"Age":"50 to 59 yo",
"Kids":"No kid",
"Gender":"Male"
}

我想获得键/值的完整列表+每个的行数。这是我的请求的解释分析详细的结果:

GroupAggregate  (cost=1138526.13..1201099.13 rows=100 width=72) (actual time=2016.984..2753.058 rows=568 loops=1)
  Output: meta_split.key, meta_split.value, count(DISTINCT voc_cc348779bdc84f8aab483f662a798a6a.id)
  Group Key: meta_split.key, meta_split.value
  ->  Sort  (cost=1138526.13..1154169.13 rows=6257200 width=68) (actual time=2015.501..2471.027 rows=563148 loops=1)
        Output: meta_split.key, meta_split.value, voc_cc348779bdc84f8aab483f662a798a6a.id
        Sort Key: meta_split.key, meta_split.value
        Sort Method: external merge  Disk: 26672kB
        ->  Nested Loop  (cost=0.00..131538.72 rows=6257200 width=68) (actual time=0.029..435.456 rows=563148 loops=1)
              Output: meta_split.key, meta_split.value, voc_cc348779bdc84f8aab483f662a798a6a.id
              ->  Seq Scan on public.voc_cc348779bdc84f8aab483f662a798a6a  (cost=0.00..6394.72 rows=62572 width=294) (actual time=0.007..16.588 rows=62572 loops=1)
                    Output: voc_cc348779bdc84f8aab483f662a798a6a.id, voc_cc348779bdc84f8aab483f662a798a6a.date, voc_cc348779bdc84f8aab483f662a798a6a.text, voc_cc348779bdc84f8aab483f662a798a6a.themes, voc_cc348779bdc84f8aab483f662a798a6a.meta, voc_cc348779bdc84f8aab483f662a798a6a.canal, voc_cc348779bdc84f8aab483f662a798a6a.source, voc_cc348779bdc84f8aab483f662a798a6a.file
              ->  Function Scan on pg_catalog.jsonb_each meta_split  (cost=0.00..1.00 rows=100 width=64) (actual time=0.005..0.005 rows=9 loops=62572)
                    Output: meta_split.key, meta_split.value
                    Function Call: jsonb_each(voc_cc348779bdc84f8aab483f662a798a6a.meta)
                    Filter: (meta_split.value IS NOT NULL)
Planning Time: 1.502 ms
Execution Time: 2763.309 ms

我尝试将 COUNT(DISTINCT(id)) 更改为 COUNT(DISTINCT voc_cc348779bdc84f8aab483f662a798a6a.*) 或使用子查询，分别导致 x10 和 x30 时间变慢。我还考虑过用这些计数维护一个单独的表；但是我不能这样做，因为我需要过滤结果(例如，有时查询在 date 列上有一个过滤器等)。
我真的不知道如何进一步优化它，但是如此小的行数会很慢 - 我希望以后有十倍于这个数字，如果速度与数字成比例，那就太慢了，就像它所做的那样与第一个 62k。

最佳答案

假设 id不仅UNIQUE - 由您的 UNIQUE INDEX 强制执行- 还有 NOT NULL . (您的表定义中缺少这一点。)

SELECT meta_split.key, meta_split.value, count(*)
FROM   voc_cc348779bdc84f8aab483f662a798a6a v
CROSS  JOIN LATERAL jsonb_each(v.meta) AS meta_split
GROUP  BY meta_split.key, meta_split.value;

更短的等价物:

SELECT meta_split.key, meta_split.value, count(*)
FROM   voc_cc348779bdc84f8aab483f662a798a6a v, jsonb_each(v.meta) AS meta_split
GROUP  BY 1, 2;

LEFT [OUTER] JOIN是噪音，因为以下测试 WHERE meta_split.value IS NOT NULL强制 INNER JOIN反正。使用 CROSS JOIN反而。
此外，由于 jsonb无论如何都不允许在同一级别上重复键(意味着相同的 id 每个 (key, value) 只能弹出一次)， DISTINCT只是昂贵的噪音。 count(v.id)同样便宜。和 count(*)是等效的，而且更便宜，但 - 假设 id是 NOT NULL如顶部所述。
count(*) has a separate implementation并且比 count(<value>) 稍快.它与 count(v.*) 略有不同.无论如何，它都会计算所有行。而另一种形式不计 NULL值。
即只要 id不能是 NULL - 如顶部所述。 id真的应该是 PRIMARY KEY ，无论如何，它在内部使用唯一的 B 树索引实现，所有列 - 只是 id这里 - 是 NOT NULL含蓄地。或者至少 NOT NULL .一个 UNIQUE INDEX不完全符合替换条件，它仍然允许 NULL被认为不相等并且允许多次的值。看:

Why can I create a table with PRIMARY KEY on a nullable column?

Create unique constraint with null columns

除此之外，索引在这里没有用，因为无论如何都必须读取所有行。所以这永远不会很便宜。但是 62k 行无论如何都不是一个严重的行数 - 除非您在 jsonb 中有大量的键。柱子。
加快速度的其余选项:

规范化您的设计。取消嵌套 JSON 文档不是免费的。

维护物化 View 。可行性和成本在很大程度上取决于您的写入模式。

... sometimes the query has a filter on the date column or the like.

这就是索引可能再次发挥作用的地方......

关于sql - 在未嵌套的 jsonb 列上优化 GROUP BY + COUNT DISTINCT，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63038210/

25

4

0

文章推荐： python - Ansible 是否公开其自动发现的 Python 解释器？

文章推荐： f# - F# 中的“和”关键字

文章推荐： Flutter:文本中间出现三个点的文本溢出省略号

一文搞清楚MySQL count(*)、count(1)、count(col)区别
目录 count作用测试 count(*) count(1) count(col) count(id):统计id count(inde
MySQL count(1)、count(*)、count(字段)的区别
目录 1.初识COUNT 2.COUNT(字段)、COUNT(常量)和COUNT(*)之间的区别 3.COUNT(*)的优化 MyIS
sql - SQL Server 2008 中 select count(*)、count(0)、count(100)、count(Id) 之间的区别？
以下 SQL Server 2008 语句之间有什么区别？ SELECT COUNT(*) FROM dbo.Regular_Report SELECT COUNT(0) FROM dbo.Regul
python - 为什么是 str.count ('' ) ≠ (from str.count ('A' ) + str.count ('B' ) + ... + str.count ('Z' ))
如果字符串(短语)中只有元音，它(对我而言)说True；否则说 False。我不明白为什么它总是返回 False，因为 (x >= x) 总是返回 True。我感谢任何人检查此查询的解决方案。 (st
【MySQL】MySQL count(*) count(1) 实现方式以及各种 count 对比
1.概述在这个文章之前，我一直用count(1) 查询所有数据，以前我们都是说 count(*) 是最慢的。但是这个博客恰恰相反。对于 count(主键 id) 来说，InnoDB 引擎会遍历整张
sql - COUNT(*) 与 COUNT(1) 与 COUNT(pk) : which is better?
这个问题已经有答案了: Count(*) vs Count(1) - SQL Server (13 个回答) 已关闭 8 年前。我经常发现这三种变体: SELECT COUNT(*) FROM Fo
sql - 为什么 count(1)、count(column) 和 count(*) 的成本相同？
为什么三个查询的成本相同？我想至少应该有一个更快。否则，只使用关键字 COUNT() 而不是 COUNT(parameter) 就可以了。例如，以下是不依赖于参数的 COUNT() 示例实现: wh
mysql - 如何在连接表上查询 COUNT 并返回 count=0 和 count>0 的记录
我有一个“产品”表和一个“评论”表。我想编写一个查询来返回每个产品的评论的 COUNT 和 AVG。并且如果没有评论，我希望它为 COUNT 和 AVG 返回 0/null。产品表 +-----
iOS 应用崩溃 -[NSCFString count] : when trying to get count of NSMutableArray if count is only 1
我会保持简短和亲切，因为我确信我缺少的是一些简单的东西。我正在尝试获取一个 NSMutableArray 的计数，它可以包含可变数量的对象(id 号)。数组是从 JSon 数据创建的，数组本身是完美创
Splunk Query Count of Count
我想知道查询计数的计数。查询是 sourcetype="cargo_dc_shipping_log" OR sourcetype="cargo_dc_deliver_log" | stats cou
count - sqlalchemy COUNT 和 IF
任何人都知道我如何在 SQL 炼金术中进行计数 COUN(IF(table_row = 1 AND table_row2 =2),1,0) 我做了这样的东西， func.COUNT(func.IF((
MySQL COUNT where 和 COUNT all
我有一个有四列的表(销售)； id, user_id, product_id, and date_added. 我需要统计某个用户已售出的具有特定 id 的产品数量，并获取该用户当月售出的产品总数。
MySQL count of count，将一个表的结果与另一个表一起使用
我是来问这个问题的实现的 MYSQL count of count? 我的问题是将我从一个表中提取结果的结果联系起来，使用它们来查询同一数据库的另一个表 (抱歉，我不是强大的 xySQL)。我有一个
MySQL COUNT(*) GROUP BY HAVING COUNT=?
这是我的查询 SELECT COUNT(*) as total, toys, date FROM T1 WHERE (date >= '2012-06-26'AND date '0') UNION
mysql - COUNT 和同一查询中的子 COUNT
我有 2 个表:成员，订单。 Members: MemberID, DateCreated Orders: OrderID, DateCreated, MemberID 我想找出给定月份中新成员的数
mysql - mySQL/SQL 中的 count(0)、count(1).. 和 count(*) 有什么区别？
我最近在一次采访中被问到这个问题。我在 mySQL 中尝试了这个，并得到了相同的结果(最终结果)。All 给出了该特定表中的行数。谁能解释它们之间的主要区别。最佳答案没什么，除非您在表格中指定字段
count - 桌面 : Count Distinct returns higher value than Count (if connected to Google Big Query)
我有一个包含 2157 条记录的表，假设有 3 列(A、B、C)，我知道在 A 列中有 2154 个不同的值。使用连接到 BigQuery 的 Tableau Desktop(及其自身的功能)，我得
sql - 每辆车相对有 Count(For that Day), Count for last 10 days 和 Count of last 20 days
我试图查看当天的车辆销量，并创建另外两个列来告诉我过去 10 天的销量和过去 20 天的销量。同一天和同一辆车可能有多个销售。我的目标是获取不同的车辆和日期并查看他们的销售数量。 N 天计数应与该行中
MySQL SELECT 1 vs SELECT `field_id` AND COUNT 1 vs COUNT (*) or COUNT (`field_id` ) 性能明智
我有一个非常简单的问题。我想知道某个数据库行是否存在。我通常使用: SELECT 1 FROM `my_table` WHERE `field_x` = 'something' 然后我获取结果: $
java - 一个循环如何由两个线程完成？说由 ist 线程从 count=1 循环到 count=4 并由第二个线程循环 count =5 到 8？
我想要的输出的描述:我想要两个线程 Gaurav 和 john 完成一个 while 循环(从 1 到 8)，这样无论哪个线程启动 ist，都会运行 5 次迭代(即直到 count=5 ) ，然后进入

首页

博学

6Ren·AI

商城

sql - 在未嵌套的 jsonb 列上优化 GROUP BY + COUNT DISTINCT