gpt4 book ai didi

arrays - PostgreSQL 交叉表 - 列数可变

转载 作者:行者123 更新时间:2023-11-29 12:04:44 25 4
gpt4 key购买 nike

在尝试向 MS Access 用户宣传学习徒手 SQL 的好处时,我遇到的一个常见问题是,以 Access 的方式创建交叉表查询效果的复杂性。我意识到,严格来说,在 SQL 中它不是那样工作的——它在 Access 中可行的原因是它处理数据的呈现。

具体来说,当我有一个包含实体、日期和数量的表时,我们经常希望在一行中看到单个实体,日期表示为列:

这个:

entity       date      qty
------ -------- ---
278700-002 1/1/2016 5
278700-002 2/1/2016 3
278700-002 2/1/2016 8
278700-002 3/1/2016 1
278700-003 2/1/2016 12

变成这样:

Entity      1/1/16   2/1/16   3/1/16
---------- ------ ------ ------
278700-002 5 11 1
278700-003 12

也就是说,我们处理此问题的常用方法与此类似:

with vals as (
select
entity,
case when order_date = '2016-01-01' then qty else 0 end as q16_01,
case when order_date = '2016-02-01' then qty else 0 end as q16_02,
case when order_date = '2016-03-01' then qty else 0 end as q16_02
from mydata
)
select
entity, sum (q16_01) as q16_01, sum (q16_02) as q16_02, sum (q16_03) as q16_03
from vals
group by entity

这过于简单化了,但我相信大多数人都能理解我的意思。

这方面的主要问题不是列数的限制——数据通常是有界的,我可以使用固定数量的日期列——36 个月,或其他,取决于上下文数据。我的问题是我必须每个月更改日期才能完成这项工作。

我有一个想法,我可以利用数组根据距当前日期的月份动态地将数量分配给数组的索引。以这种方式,我的数据最终会看起来像这样:

Entity      Values
---------- ------
278700-002 {5,11,1}
278700-003 {0,12,0}

这是完全可以接受的,因为我可以在我使用的任何呈现工具(例如 Excel)中管理实际列的呈现。

问题是我被卡住了……我如何从我的数据中得到这个。如果这是 Perl,我会遍历数据并执行如下操作:

foreach my $ref (@data) {
my ($entity, $month_offset, $qty) = @$ref;
$values{$entity}->[$month_offset] += $qty;
}

这不是 Perl...到目前为止,这就是我所拥有的,现在我处于精神僵局。

with offset as (
select
entity, order_date, qty,
(extract (year from order_date ) - 2015) * 12 +
extract (month from order_date ) - 9 as month_offset,
array[]::integer[] as values
from mydata
)
select
prod_id, playgrd_dte, -- oh my... how do I load into my array?
from fcst

“2015”和“9”并不是真正的硬编码——为了简单起见,我将它们放在那里。

此外,如果我的方法或假设完全错误,我相信有人会纠正我的错误。

最佳答案

与所有可以想象和无法想象的事情一样,有一种方法可以使用 PostgreSQL 做到这一点。它看起来像这样:

WITH cte AS (
WITH minmax AS (
SELECT min(extract(month from order_date))::int,
max(extract(month from order_date))::int
FROM mytable
)
SELECT entity, mon, 0 AS qty
FROM (SELECT DISTINCT entity FROM mytable) entities,
(SELECT generate_series(min, max) AS mon FROM minmax) allmonths
UNION
SELECT entity, extract(month from order_date)::int, qty FROM mytable
)
SELECT entity, array_agg(sum) AS values
FROM (
SELECT entity, mon, sum(qty) FROM cte
GROUP BY 1, 2) sub
GROUP BY 1
ORDER BY 1;

几句解释:

在 SQL 语句中生成数组的标准方法是使用 array_agg() 函数。您的问题是您有几个月没有数据,然后 array_agg() 很高兴地什么也没产生,留下了长度不等的数组,并且没有关于数据来自哪个时间段的信息。您可以通过为“实体”和感兴趣期间的月份的每个组合添加 0 来解决此问题。这就是这段代码的作用:

SELECT entity, mon, 0 AS qty
FROM (SELECT DISTINCT entity FROM mytable) entities,
(SELECT generate_series(min, max) AS mon FROM minmax) allmonths

所有这些 0 都被 UNION 到“mytable”中的实际数据,然后(在主查询中)您可以首先按实体和月份对数量求和,然后将这些总和汇总到一个每个实体的数组。由于它是双重聚合,因此您需要子查询。 (您也可以对 UNION 中的数量求和,但是您还需要一个子查询,因为 UNION 不允许聚合。)

可以调整 minmax CTE 以包括年份(您的样本数据不需要它)。请注意,实际的 minmax 值对数组中的索引无关紧要:如果 min 为 743,它仍将占据第一个位置在数组中;这些值仅用于 GROUPing,不用于索引。

SQLFiddle

为了便于使用,您可以将此查询包装在一个 SQL 语言函数中,并带有开始和结束月份的参数。调整 minmax CTE,为 generate_series() 调用和 生成适当的 minmax 值>UNION 从“mytable”中过滤要考虑的行。

关于arrays - PostgreSQL 交叉表 - 列数可变,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32492982/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com