sql - Redshift : Find preceding rows that satisfy condition to constitute a sequence-6ren

sql - Redshift : Find preceding rows that satisfy condition to constitute a sequence

转载作者：行者123 更新时间：2023-12-01 09:14:55

30

4

一周以来，我一直在努力寻找以下 Redshift 谜语的解决方案(我觉得我已经对它着迷了):

Redshift 中有一个事件表(“event_user_item”)，用户通过输入出现在 event_value 列中的项目代码来触发某些项目的事件。

提交失败由event_type序列PageLoad-ItemCode-ErrorResponse组成，但是这样的事件类型不一定是连续的，意思每个 user_id 之间可以有许多其他事件类型。

我发布了一个基于 3 个不同 user_id 的小摘录，应该说明关注失败提交的相关场景。

ord_num event_type          event_value     user_id     event_datetime
1       PageLoad                            124         03/09/2018 21:48:39
2       ItemCode            LG56731         124         03/09/2018 21:48:53
4       Details1PageLoad                    124         03/09/2018 21:48:56
8       PageLoad                            124         03/09/2018 22:02:23
9       ItemCode            GU07019         124         03/09/2018 22:02:32
10      ErrorResponse       Some message    124         03/09/2018 22:02:32
51      PageLoad                            228         04/09/2018 12:38:30
52      ItemCode            EQ23487         228         04/09/2018 12:38:33
53      ErrorResponse       Some message    228         04/09/2018 12:38:34
54      PageLoad                            304         04/09/2018 15:43:14
55      ItemCode            OB68102         304         04/09/2018 15:43:57
56      ErrorResponse       Some message    304         04/09/2018 15:43:58
57      ItemCode            PB68102         304         04/09/2018 15:44:21
58      ErrorResponse       Some message    304         04/09/2018 15:44:22
59      PageLoad                            304         05/09/2018 11:19:37
60      ItemCode            OB68102         304         05/09/2018 11:20:17
62      Details1PageLoad                    304         05/09/2018 11:20:20

目标:找到每个 user_id 每个 ItemCode 的失败提交数。重要的是不要混淆失败提交和成功提交的项目代码。此外，同一项目代码也可能有多个失败条目。

我不是 Redshift 方面的专家，尤其是它的窗口函数，但我尝试坚持的第一个想法是 LAG 函数。为了做到这一点，我打算确定有资格被计算的 ord_nums 序列，例如

ord_num event_type          event_value     user_id event_datetime           error?     sequence
1       PageLoad                            124     03/09/2018 21:48:39     
2       ItemCode            LG56731         124     03/09/2018 21:48:53     
4       Details1PageLoad                    124     03/09/2018 21:48:56     
8       PageLoad                            124     03/09/2018 22:02:23     
9       ItemCode            GU07019         124     03/09/2018 22:02:32     
10      ErrorResponse       Some message    124     03/09/2018 22:02:32     1       8-9-10
51      PageLoad                            228     04/09/2018 12:38:30     
52      ItemCode            EQ23487         228     04/09/2018 12:38:33     
53      ErrorResponse       Some message    228     04/09/2018 12:38:34     1       51-52-53
54      PageLoad                            304     04/09/2018 15:43:14     
55      ItemCode            OB68102         304     04/09/2018 15:43:57     
56      ErrorResponse       Some message    304     04/09/2018 15:43:58     1       54-55-56
57      ItemCode            PB68102         304     04/09/2018 15:44:21     
58      ErrorResponse       Some message    304     04/09/2018 15:44:22     1       54-57-58
59      PageLoad                            304     05/09/2018 11:19:37     
60      ItemCode            OB68102         304     05/09/2018 11:20:17     
62      Details1PageLoad                    304     05/09/2018 11:20:20

所以根据 user_id 应该有以下计数:

user_id     nr_failed_submissions   
124         1   
228         1   
304         2

但是，从上面的数据集和预期结果可以看出，无法预测要向后移动多少条记录，我需要一个不能放在 LAG 内的附加条件...

我尝试了很多选择，但没有一个适合。

非常有用和有见地的帖子已经

但直到现在，我还没有设法将它们全部融合成可行的解决方案。在 Redshift 中一定有办法做到这一点？

最佳答案

此查询将创建“时间范围”，其中 time1 表示 PageLoad 事件的时间戳，time2 表示该用户下一个 PageLoad 事件的时间戳:

WITH timeranges AS
(
  SELECT A.user_id,
         A.event_datetime AS time1,
         nvl(MAX(B.event_datetime),'2099-01-01') AS time2
  FROM foo AS A
    LEFT JOIN foo AS B
           ON A.user_id = B.user_id
          AND A.event_datetime < B.event_datetime
          AND A.event_type = B.event_type
  WHERE A.event_type = 'PageLoad'
  GROUP BY A.user_id,
           A.event_datetime
)

此查询建立在将每个“ItemCode”事件与其对应的“PageLoad”的时间戳相关联的基础上:

SELECT timeranges.time1 AS pageloadtime,
       foo.*
FROM foo
  LEFT JOIN timeranges
         ON foo.event_datetime >= timeranges.time1
        AND foo.event_datetime < timeranges.time2
WHERE foo.event_type = 'ItemCode'

此查询确定是否有任何“ErrorResponse”事件落在每个范围内:

SELECT timeranges.time1 AS pageloadtime,
       timeranges.user_id,
       BOOL_OR(foo.event_type = 'ErrorResponse') AS has_error
FROM timeranges
  LEFT JOIN foo
         ON event_datetime > time1
        AND event_datetime < time2
GROUP BY timeranges.time1,
         timeranges.user_id
HAVING has_error;

这应该为我们提供了我们需要的所有部分——对于每个页面加载事件，我们知道 (1) 该页面加载是否有错误，以及 (2) 我们知道与该负载关联的所有 ItemCode 事件。在这两个结果集之间加入应该可以找到我们正在寻找的东西。

redshift 的一个特殊性让我在尝试直接连接这两个数据集时遇到了一些麻烦，所以我不得不创建两个临时表。这个可怕的格式查询给了我预期的结果:

create temporary table items_per_pageload as 
with timeranges as (select A.user_id, A.event_datetime as time1, nvl(max(B.event_datetime), '2099-01-01') as time2 from event_user_item as A left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
where A.event_type='PageLoad' group by A.user_id, A.event_datetime)
select timeranges.time1 as pageloadtime, event_user_item.* from event_user_item left join timeranges on event_user_item.event_datetime>=timeranges.time1 and event_user_item.event_datetime<timeranges.time2 where event_user_item.event_type='ItemCode'

create temporary table pageloads_with_errors as 
with timeranges as (select A.user_id, A.event_datetime as time1, nvl(max(B.event_datetime), '2099-01-01') as time2 from event_user_item as A left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
where A.event_type='PageLoad' group by A.user_id, A.event_datetime)
select timeranges.time1 as pageloadtime, timeranges.user_id, bool_or(event_user_item.event_type='ErrorResponse') as has_error from timeranges left join event_user_item on event_datetime > time1 and event_datetime < time2
group by timeranges.time1, timeranges.user_id having has_error;

select count(1), user_id, event_value from (
select items_per_pageload.* from items_per_pageload join pageloads_with_errors on items_per_pageload.user_id = pageloads_with_errors.user_id and items_per_pageload.pageloadtime = pageloads_with_errors.pageloadtime 
) group by user_id, event_value

关于sql - Redshift : Find preceding rows that satisfy condition to constitute a sequence，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52628736/

30

4

0

文章推荐： Python3变量自增和赋值

文章推荐： SQL Server 2008 列前缀错误

sequence - 你如何在 Ceylon 中展平一个 Sequence of Sequences？
给定一个 Sequence of Sequences 类型，如何将其转换为单个扁平化 Sequence 类型？考虑以下 Ceylon 代码: Integer[] range(Integer max)
f# - 由 Sequence 的前一个元素和另一个 Sequence 构造的 Sequence
出于学习目的，我正在尝试使用 F# 以序列形式运行模拟。从一系列随机数开始，如果状态不依赖于先前的状态，map 是生成状态序列的直接方法。我遇到问题的地方是当我尝试做类似的事情时: State(i+1
sequence - DynamoDB : Have sequencing within Items
我正在 DynamoDB 上开发论坛。有一个帖子表，其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念，即我需要知道哪个帖子先出现，哪个后出现。我的服务将在分布式环境中运行。我不确定使用时
sequence - DynamoDB : Have sequencing within Items
我正在 DynamoDB 上开发论坛。有一个帖子表，其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念，即我需要知道哪个帖子先出现，哪个后出现。我的服务将在分布式环境中运行。我不确定使用时
sequence - Z3py 是否支持 "String"和 "Sequence"
在 Z3 中，它支持 String 和 Sequence。但是 Z3py 是否也支持它们，或者我们必须使用 Python 中的字符串或列表？从最新的版本来看，新版本好像确实支持了String和Sequ
Clojure : apply keys to every sequence of sequence
我是 Clojure 世界的新手，我遇到了一个问题。我得到了一个 LazySeq，看起来像这样(实际上更长) values = (("Brand1" "0") ("Brand2" "15") ("Br
python - "Decoder"模型的 "Sequence-to-Sequence"应该输入什么？
我正在开发一个用于文本生成的序列到序列模型 ( paper )。我没有在解码器端使用“教师强制”，即 t0 时解码器的输出被馈送到 t1 时解码器的输入。现在，实际上，解码器(LSTM/GRU)的输
c++ - Rust 中的 "sequence point"/"sequenced-before"规则是什么？
Rust 中的规则是什么，类似于这里描述的规则http://en.cppreference.com/w/cpp/language/eval_order对于 C++？目前我凭经验发现， 1) 函数的参
python - 我的代码 : identifying sequence within another sequence 中的错误
我当前的代码: import re from Bio.Seq import Seq def check_promoter(binding_element,promoter_seq): promoter
python - 值错误 : setting an array element with a sequence when array is not a sequence
您好，此代码旨在存储使用 open cv 绘制的矩形的坐标，并将结果编译为单个图像。 import numpy as np import cv2 im = cv2.imread('1.jpg') im
java - : a string should not contain any sequence of characters immediately followed by the same sequence? 的正则表达式示例是什么
在我的程序中，我有一个正则表达式，它确保输入字符串至少有一个字母和一个数字字符，并且长度在 2 到 10 之间。 Pattern p = Pattern.compile("^(?=.*\\d)(?=.
python - 如何修复 'TypeError: cannot convert dictionary update sequence element #0 to a sequence'
我正在查看 Google 的免费机器学习速成类(class)，并尝试根据他们类(class)的第一部分制作一个预测模型。但是，在输入函数中，有一个字典，我不断收到此错误， in my_input_fn
c++ - boost fusion/MPL : convert type from sequence to sequence of equivalent any_range's
我想使用 Boost 的 any_range 来处理多个异构数据范围。我的数据范围类型称为 fusion vector ，例如: typedef vector TypeSequence 鉴于这样的类型
oracle - 在 SimpleJdbcInsert 对象中指定 Oracle Sequence 以从 Oracle Sequence 生成 key
我正在使用 SimpleJdbcInsert 作为， SimpleJdbcInsert simpleJdbcInsert = new SimpleJdbcInsert(dataSource).with
python - Biopython 给出 ValueError : Sequences must all be the same length even though sequences are of the same length
我正在尝试通过从我的数据创建 .phy 文件来创建系统发育树。我有一个数据框 ndf= ESV trunc 1 esv1 TACGTAGGTG... 2 esv2 TACGGAGGGT... 3 e
c# - 学习 Rx : How can I parse an observable sequence of characters into an observable sequence of strings?
这可能真的很简单，但我正处于 Rx 学习曲线的底部。我花了几个小时阅读文章、观看视频和编写代码，但我似乎对一些看起来应该非常简单的事情有心理障碍。我正在从串行端口收集数据。我已使用 Observab
python - 类型错误 : cannot convert dictionary update sequence element #0 to a sequence - Odoo v10 community
我正在将一些模块从 v8 迁移到 v10，我有这个模型: class SearchInfoPartnerSeniat(models.TransientModel): _name = "search.i
Marten - using sequences - add new sequence fails on 2nd run(马丁-使用序列-添加新序列在第二次运行时失败)
我尝试添加一个新的“自定义”序列到我的Marten DB中，以获取新用户的用户ID（在注册过程中）。。后来，我能够访问下一个序列值，如下所示：。问题出在上面的代码中：在第一次运行时：将userid_s
sequence - 关于Raku中数组生成序列的问题
我在 rosettacode 遇到了这个代码 my @pascal = [1], { [0, |$_ Z+ |$_, 0] } ... Inf; .say for @pascal[^4]; # ==>
sequence - 对来自序列的供应使用react
我不明白为什么这个程序有效: my $supply = Supply.interval: 1; react { whenever $supply { put "Got $^a" }

首页

博学

6Ren·AI

商城

sql - Redshift : Find preceding rows that satisfy condition to constitute a sequence