sql - 使用 RANK OVER PARTITION 比较前一行结果-6ren

sql - 使用 RANK OVER PARTITION 比较前一行结果

转载作者：行者123 更新时间：2023-12-04 17:12:47

25

4

我正在处理一个包含(在其他列中)用户 ID 和开始日期的数据集。目标是有一个新列“isRehire”，将他们的开始日期与以前的开始日期进行比较。

如果 startDates 之间的差异在 1 年以内，则 isRehire = Y。

当用户的开始日期超过 2 个时，困难和我的问题就会出现。如果第三个开始日期和第一个开始日期之间的差异超过一年，则第三个开始日期将是重新雇用的新“基准日期”。

<表类="s-表"><头>用户ID开始日期重新雇用<正文>1232019-07-24N12302/04/20是12308/25/20N12312/20/20是12321-06-15是12308/20/21是12308/30/21N

在上面的示例中，您可以看到问题的可视化。第一个 startDate 07/24/19，用户不是 Rehire。第二个 startDate 02/04/20，他们是 Rehire。 第三个 startDate 08/25/20 用户不是被重新雇用，因为距离他们最初的 startDate 已经超过 1 年了。这是新的“锚定”日期。

接下来的 3 个实例都是 Y，因为它们都在新“锚定”日期 08/25/20 的 1 年内。最终开始日期 08/30/21 超过 08/25/20 一年多，表示“N”，“周期”再次重置，08/30/21 作为新的“锚定”日期。

我的目标是利用 RANK OVER PARTITION 来完成这个，因为从我的测试来看，我相信必须有一种方法可以为日期分配等级，然后可以将其包装在 select 语句中，以便 CASE 表达式成为书面。尽管我完全有可能找错树了。

下面您可以看到我尝试使用的一些代码来完成此操作，尽管到目前为止还没有取得太大成功。

select TestRank,
startDate,
userID,
CASE WHEN TestRank = TestRank THEN (TestRank - 1
                                            ) ELSE '' END AS TestRank2
from
(

select userID,
startDate
RANK() OVER (PARTITION BY userID
            ORDER BY startDate desc)
            as TestRank
from [MyTable] a
WHERE a.userID = [int]

) b

最佳答案

这是复杂的逻辑，窗口函数是不够的。要解决这个问题，您需要迭代——或者在 SQL 中，递归 CTE:

with t as (
      select t.*, row_number() over (partition by id order by startdate) as seqnum
      from mytable t
     ),
     cte as (
      select t.id, t.startdate, t.seqnum, 'N' as isrehire, t.startdate as anchordate
      from t
      where seqnum = 1
      union all
      select t.id, t.startdate, t.seqnum,
             (case when t.startdate > dateadd(year, 1, cte.anchordate) then 'N' else 'Y' end),
             (case when t.startdate > dateadd(year, 1, cte.anchordate) then t.startdate else cte.anchordate end)
      from cte join
           t
           on t.seqnum = cte.seqnum + 1
     )
select *
from cte
order by id, startdate;

Here是一个数据库<> fiddle 。

关于sql - 使用 RANK OVER PARTITION 比较前一行结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69169496/

25

4

0

文章推荐： python - 如何使 Python 库在 PYTHONPATH 中可访问？

文章推荐： U-boot 脚本坏头 CRC

文章推荐： javascript - 每个转换而不是每个组件定义的 Svelte 转换

文章推荐： python - 使用 python 列出在 GCP 中没有特定标签的实例

postgresql - PostgreSql 中的数十亿行 : partition or not to partition?
我有什么: 简单的服务器，配备一个具有 8 个逻辑内核的至强处理器、16 GB 内存、2 个 7200rpm 驱动器的 mdadm raid1。 PostgreSQL 需要处理大量数据。每天导入多达
Azure服务总线分区: What happens when partition of partitioned queue is fully consumed?
当消息排入分区队列时，服务总线会检查分区键是否存在。如果找到，它将根据分区键选择片段。但是当该片段已满时会发生什么，该片段中没有剩余空间。服务总线是否给出错误/消息被丢弃或任何其他片段将用于存储该消
java - 使用 Lists.partition 或 Iterable.partition 将集合拆分为子集
我想知道将集合拆分为子集的有效方法是什么？ Iterable> partitions = Iterables.partition(numbers, 10); 或 List> partitions =
Mysql - DATETIME 列上的 HASH PARTITION 与 RANGE PARTITION？
有人可以告诉我 DATETIME 列上 HASH PARITION 与 RANGE PARTITION 的优缺点吗？假设我们有一个包含 2000 万条记录的 POS 表，并且想要根据交易日期的年份创建
Azure Cosmos DB : Cross-Partition Queries v's In-Partition Queries
我们有一个 cosmos-db 容器，其中包含大约 1M 条记录，其中包含有关客户的信息。 documentDb 的分区键是 customerId，它保存客户的唯一 GUID 引用。我已阅读parti
jsr352 - JSR 352 :How to collect data from the Writer of each Partition of a Partitioned Step?
因此，我在写入数据库的步骤中有 2 个分区。我想记录每个分区写入的行数，得到总和，打印到日志中；我正在考虑在编写器中使用static变量，并使用Step Context/Job Context在St
google-bigquery - 谷歌 Bigquery : How to update partition expiration time for a partitioned table?
Bigquery 文档说可以更新分区表的分区时间到期。而我只能为摄取时间分区表执行此操作。我尝试了以下方法: bq query --use_legacy_sql=false ' CREATE
sql - 甲骨文 SQL : Selecting data and partition name from table and truncating partitions
这是一个两部分的问题: 1) 是否可以根据数据的 ROWID 或其他标识符使用 select 语句检索数据所在分区的名称？例如。 SELECT DATA_ID, CATEGORY, VALUE, *
google-bigquery - 谷歌 Bigquery : Partitioning specification needed for copying date partitioned table
注意:这几乎是 this question 的副本区别在于，在这种情况下，源表是日期分区的，而目标表尚不存在。此外，该问题的公认解决方案在这种情况下不起作用。我试图将一天的数据从一个日期分区表复制到
MySQL : Performance of adding new column to partitioned table vs non-partitioned table
我已经搜索了很多，但找不到有关以下场景的任何信息。考虑一个包含超过 500,000 行、约 20 列和约 5 列上的 INDEX 的 InnoDB 表。当该表处于以下情况时，执行“ALTER TA
Oracle 数据库 : How can I alter a partitioned table to a new table space for not only the partitions but also the table itself?
如何将分区表(在 Oracle 10g 数据库中)更改为不仅用于分区而且还用于表本身的新表空间？我的意思是，我可以毫无问题地进行以下操作， --sql 改变表 abc 移动分区 abc01 表空间 n
google-bigquery - BigQuery : cost of querying tables partitioned by ingestion time vs date/timestamp partitioned
我们正在尝试基于 BigQuery 在云中构建(或者更好地说重建)我们的 DWH。我们决定对原始数据使用“按日期字段分区”表(如“created_date”字段)，而不是摄取时间分区，因为通过此功能，
java - Spring 批处理3.0 : StepExecutionListener for a partitioned Step and cascading of execution context values to the partitioned job
给定一个使用分区的 Spring Batch 作业:
hadoop - 解释 "There can be many keys (and their associated values) in each partition, but the records for any given key are all in a single partition"
“每个分区中可以有许多键(及其相关值)，但任何给定键的记录都在一个分区中。”这是一本著名的hadoop教科书的一行。我没有理解它的第二部分的全部含义，即“但是任何给定键的记录都在一个分区中。”这是否意
If there is only 1 partition in an Athena table, but a user doesn't query by that partition, how much data is scanned?(如果一个Athena表中只有一个分区，但用户没有按该分区进行查询，那么会扫描多少数据？)
Let's say I have an Athena table mytable partitioned by columns A, B, and C.假设我有一个由列A、B和C分区的Athen
hadoop - `hive.exec.max.dynamic.partitions`和 `hive.exec.max.dynamic.partitions.pernode`的区别
我正在寻找一些文档来了解 hive.exec.max.dynamic.partitions 和 hive.exec.max.dynamic.partitions.pernode 之间的区别。我们什么
sorting - PARTITIONED BY、CLUSTERED BY 和 SORTED BY 与 BUCKETS 之间的 Hive 区别以及插入与 PARTITIONED 和 CLUSTER BY 的覆盖？
我看过一些关于创建分区的表的很好的解释，这些分区是 CLUSTERED BY 和 SORTED BY。这与创建带分区的表，然后使用 CLUSTER BY 填充表(例如使用 INSERT OVERWRI
google-bigquery - 大查询 : query time partitioned table row counts per partition for 0 bytes (free) query
使用摄取时间分区表，可以免费查询每个分区的行数。字节计费为 0。 SELECT DATE(_PARTITIONTME) AS dd, COUNT(*) FROM ds.ingestion_time_p
aws-lambda - 使用 DynamoDB 和 Graal 自定义运行时的 Micronaut 无服务器应用程序抛出无法构造 com.amazonaws.partitions.model.Partitions 的实例
此处提供示例项目: https://github.com/codependent/micronaut-aws-lambda-proxy-graal 我在 Amazon AWS 上部署了一个 Micro
partitioning - 通过文档ID检索时是否需要分区键
是否可以在不指定分区键的情况下通过其 ID 检索文档？我的理解来自阅读 documentation是当未指定分区键时查询将在所有分区中扇出: The following query does not

首页

博学

6Ren·AI

商城

sql - 使用 RANK OVER PARTITION 比较前一行结果