sql - 使用 row_number() 选择第一行-6ren

sql - 使用 row_number() 选择第一行

转载作者：行者123 更新时间：2023-12-02 19:41:29

25

4

我想知道 ROW_NUMBER() 的性能:
在我的测试用例中，我有许多元素，每个元素中都有大量(~100k)条目。我想为每个元素选择第一个条目:

SELECT * FROM(    
    SELECT 
      element, msg, timestamp, 
      ROW_NUMBER() OVER(PARTITION BY element ORDER BY timestamp) as rank
    FROM table
) t1
WHERE rank = 1

对我来说，为了保留第一个分区而需要为每个分区订购所有 100k 行似乎太过分了。像 MIN() 函数这样的东西应该天真地表现得更好。
所以我尝试了这样的事情:

SELECT
  element, MIN(a)[0] as timestamp, MIN(a)[1] as msg
FROM(
    SELECT element, ARRAY(timestamp, msg) as a
    FROM table
) t1
GROUP BY partition

但是当比较这两种方法的 CPU 使用率时，我得到了相同的性能。 ROW_NUMBER() 优化器比我想象的要聪明得多，还是我错过了什么？

编辑:我的原始查询中有一个错误。现在看结果，MIN(ARRAY) 方法似乎是相当比 ROW_NUMBER() 过滤器快。有没有一种更简单的规范方法来实现 FIRST_ROW OVER(PARTITION) 过滤器，而不必定义一个庞大的数组然后解构它？

最佳答案

你错过了一些东西。 GROUP BY需要做很多工作——看起来类似于 ROW_NUMBER() .

我对 Hive 的底层机制并不十分熟悉。在大多数数据库中，ROW_NUMBER()将获取行的物理标识符、各种键，并分别对它们进行排序。使用物理标识符，然后可以将值快速添加回原始数据。当然，细节可能因数据库而异，但这是一般的想法。

Hive 可能不会这样做。但是，无论它做什么都类似于 GROUP BY在努力方面。

关于sql - 使用 row_number() 选择第一行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44634847/

25

4

0

文章推荐： docker - Windows上的Docker:安装卷中的数据未更新

文章推荐： blockchain - Corda 中如何造成拒绝状态攻击？

文章推荐： python - NetworkX中节点的上行和下行

文章推荐： docker - Docker自动化构建未触发

ruby-on-rails - row_number() 带有未指定的窗口 `row_number() OVER ()`
我正在使用 postgres 9.1 构建分页记分牌。用户可以根据多个标准对记分板进行排序，他们可以按升序或降序排序。有一个功能可以让用户在记分牌的多个页面中找到“他们的行”，它必须反射(refle
sql - 如何在不使用 ROW_NUMBER() 的情况下模仿 ROW_NUMBER() 功能？
我在练习中遇到了这个问题，我无法修复它，这让我发疯了......基本上我使用的是 SQLLite，所以我只能使用任何窗口函数来获得结果并且更痛苦的部分是已经创建的架构上没有唯一的 id。参见示例: *
ROW_NUMBER SQL Server 2005的LIMIT功能实现(ROW_NUMBER()排序函数)
语法： ROW_NUMBER() OVER([ <partition_by_clause>] <order_by_clause>) 备注：
Sql Server 2012 fetch 与旧 row_number 性能。我缺少什么？为什么 row_number 快 17 倍？
更新:事实上，请留下以下复杂的查询，请检查此查询。它说 Fetch 为 98%，而 Row_Number 中为 2%？ Fetch 是 SQL Server 2012 的另一个营销关键字吗？ ----
SQL row_number() - 如何忽略空值？
我需要使用以下查询向用户事件添加计数器: select PERSON_ID, TIMESTAMP, row_number() over (partition by PERSON_ID order
sql - ROW_NUMBER 查询
我有一张 table : Trip Stop Time ----------------- 1 A 1:10 1 B 1:16 1 B 1:20 1
tsql - 如何在以下过程中使用 ROW_NUMBER？
我有以下存储过程返回 A , B , 并按降序计数。我正在尝试使用 ROW_NUMBER ，所以我可以分页记录，但我想要第一行号 1成为计数最高的记录，所以基本上，如果我返回一个包含 3 条记录的表并
sql - 在交叉应用中获取最大 row_number
在我的 sql 案例中，我在计算 row_number 的最大值时遇到了麻烦。我将直接在 SQL Fiddle 示例上进行解释，因为我认为理解起来会更快:SQL Fiddle “OrderNumbe
SQL ROW_NUMBER() 性能问题
我有这个运行良好的 SQL。希望我的过滤器返回具有最高 UserSessionSequenceID 的最新唯一 SessionGuid。问题是性能很差——即使我有很好的索引。我怎样才能重写这个
sql - row_number() 分析函数的奇怪行为
希望有人可以在这里为我指明正确的方向。请参阅下面的查询。 SELECT day_id,month_id,time_id, row_number() over (partition BY month_
sql - row_number() 是否总是以同样的方式打破关系？
请问函数row_number()总是以相同的方式对相同的数据进行排序？最佳答案不可以。SQL 中的排序不稳定，这意味着不会保留原始排序顺序。不能保证解析函数或 order by将为相同的键值以相同
sql - ROW_NUMBER( ) OVER 在黑斑羚
我有一个用例，我需要在 PARTITION 上使用 ROW_NUMBER(): 就像是: SELECT Column1 , Column 2 ROW_NUMBER() OVER ( P
sql - ORDER BY ROW_NUMBER
UPD:谢谢大家，话题结束， sleep 后我明白了一切=) 我在理解 OVER 子句和 ROW_NUMBER 函数时遇到问题。简单的表 - 名称和标记。我想计算每个名字的平均分数。 SELECT t
sql - 取决于条件的 Row_number()
我有一个包含零的列和一个保留顺序的列，其中零表示数据片段之间的中断。这是例子 A Ord 1 1 1 2 0 3 0 4 0 5 1 6 1 7 1 8 0 9 1 10 我想要获得的是同一列，其中零
tsql - 使用日期索引优化 ROW_NUMBER()
我有这个简单的查询，希望它是不言自明的。 SELECT ROW_NUMBER() OVER (PARTITION BY Price_Id ORDER BY date DESC) r, * FROM
sql - ROW_NUMBER() 执行计划
请考虑此查询: SELECT num, * FROM ( SELECT OrderID, CustomerID, EmployeeID, OrderDate, Required
sql - ROW_NUMBER() 性能优化
首先，我想提一下，我已经检查了所有其他提出的问题，没有一个与我的相似，所以我不认为它是重复的。我有两个表格，“Article_tbl”到目前为止已超过 300,000 行，“ArticleZone_
azure - Row_number() 或应用程序见解中可能的其他分析函数？
我有一个非常简单的问题，但我正在使用 appInsights，并且似乎无法弄清楚如何在 aiql 或任何函数中复制 row_number() 函数(没有分区意义)。我有综合浏览量表，我按 sessi
SQL ROW_NUMBER 和排序问题
在 SQL 2005/2008 数据库中，我们有表 BatchMaster。列:RecordId bigint - 自动增量 id，BatchNumber bigint - 唯一非聚集索引，Batch
sql - row_number() 如何工作？
我正在搜索删除表中的重复条目，我看到了如下示例: CREATE TABLE Suppliers ( Id int identity (1,1), CompanyTitle nvarchar(1

首页

博学

6Ren·AI

商城

sql - 使用 row_number() 选择第一行