sql - 将表 PK 值拆分为大致相同大小的范围-6ren

sql - 将表 PK 值拆分为大致相同大小的范围

转载作者：行者123 更新时间：2023-11-29 13:21:01

24

4

我在 Postgres 中有一个表，其中包含大约一百万行和一个整数主键。

我想把它的整个PK空间拆分成N个大小差不多相同的区间独立处理。我该如何最好地做到这一点？

我显然可以通过将所有 PK 值获取到客户端并记住每个第 N 个值来做到这一点。这会进行全面扫描并获取所有值，而我只需要不超过 N+1 个值。

我可以选择最小值和最大值并缩小范围，但如果 PK 分布不均匀，它可能会给我一些大小非常不同的范围。

稍后我想要基于索引的访问范围，因此任何基于模数的技巧都不适用。

是否有任何不错的基于 SQL 的解决方案不涉及将所有 key 提取到客户端？编写一个特定于 N 的查询，例如有 N 个子句，如果可以的话。

一个例子:

范围内的 ID，例如，从 1234 到 567890，N = 4。

我想得到 4 个数字，比如 127123、254789、379860，所以在 ID [1234、127123]、[127123、254789] 的每个范围内大约 125k 条记录], [254789, 379860], [379860, 567890].

更新:

我想出了这样的解决方案:

select 
     percentile_disc(0.25) within group (order by c.id) over() as pct_25
    ,percentile_disc(0.50) within group (order by c.id) over() as pct_50
    ,percentile_disc(0.75) within group (order by c.id) over() as pct_75
from customer c
limit 1
;

它在为我提供准确的范围边界方面做得不错，并且只运行了几秒钟，这对我来说很好。

令我困扰的是，我必须添加 limit 1 子句才能获得一行。没有它，我会收到相同的行，表中的每条记录一个。有没有更好的方法来获取一行百分位数？

最佳答案

我想您可以使用 row_number() 来达到这个目的。像这样:

select t.*,
       floor((seqnum * N) / cnt) as range
from (select t.*,
             row_number() over (order by pk) - 1 as seqnum,
             count(*) over () as cnt
      from t
     ) t;

这假设范围是指 pk 值的范围。您还可以将范围表达式移动到 where 子句以仅选择一个特定范围。

关于sql - 将表 PK 值拆分为大致相同大小的范围，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41768209/

24

4

0

文章推荐： sql - PostgreSQL 查找重复字段

文章推荐： c# - 我不断收到输入字符串的格式不正确的信息

文章推荐： mysql - 将此 MySQL 查询转换为 JPQL

mysql - 为什么oracle可以update pk=pk+1，而MySQL不能update set pk=pk+1
甲骨文: create table t7(c1 number primary key,c2 number); insert into t7 values (1,3); insert into t
python - 找不到页面 :/. pk
谁能告诉我为什么点击模板链接生成的url是/.pk。我想了解 url 是如何工作的。这里是 Django 新手。 Traceback (most recent call last): File "
MySQL - 触发触发器时重复 PK，但直接插入记录时不重复 PK
我有以下 MySQL 触发器。它因 tbl_users 的更新而被触发。如果当天已经存在记录，它将用一些信息更新 tbl_user_stats；如果当天没有记录，它将在 tbl_user_stats
mysql - 应该使用替代 PK 加唯一列还是使用唯一列的自然 PK？
已知:tX_1.name 永远不能为 NULL，长度可变，最多 45 个字符，并且必须始终是唯一的。哪些因素会影响是否应使用代理 PK 加唯一列(架构 1)或 PK 自然键是否使用第一个表的唯一列作
postgresql - 像这样从复合 PK 迁移到单个 PK 是否安全
我有一个包含复合 PK(code_id、user_id)的表，它已经有 100k 条记录。从复合 PK 移动到单个 PK 是否安全，如下例所示？ ALTER TABLE orders DROP C
python - Django - 为什么这个模型没有创建 pk 并提示相关模型的 pk 的完整性？
为什么这个模型没有创建 pk 并提示相关模型的 pk 的完整性？创建 UserProfile 的新实例时，它不会创建主键。我正在遵循一对一的说明 in this tutorial (这就是所有 @
java - JPA 将具有 PK 的实体映射到具有复合 PK 的实体
注意:我是 JPA 开发的新手，正在快速学习试用，所以请原谅我可能遗漏的任何明显内容。以下是相关的 JPA 实体。地址未列出，但它是一个非常简单的实体，具有一个名为 id 的 @Id。 ShipTo
java - JPA 的持续调用是否区分具有单个 PK 列的实体和具有复合 PK 的实体？
我们的系统中有两个实体，如下所示: Invoice:[InvoiceID, OrgID] 是表示为 bean 的主键，并使用 @IdClass 注释与 Invoice 相关联 WorkflowStat
java - JPA:如何插入将 PK 设置为 MAX(PK) + 1
场景:我遇到了一些在事务中将 JPA 与 JDBC 混合的代码。 JDBC 正在对基本上是空白行的表执行 INSERT，将主键设置为 (SELECT MAX(PK) + 1) 并将 middleNam
mysql - 如何查询由另一个 pk 描述的 2 个表到 pk 表的关系？
我有一个包含 3 个表的数据库:类别、项目、关系。 categories 包含类别。商品存储在items中，relation是一个绑定(bind)表，它存储了产品id和类别id或类别。对于给定的项目
mysql | mysql | PK 重复条目 - 非 PK 值更改已修复问题 - 为什么？
问题当我尝试导入 CSV 文件时，我收到 key “PRIMARY”的重复条目“x-x-xx-x-x-x” - PK 错误。 PK 本身是两个连接的 varchar。据我所知，连接永远不会重复。我
mysql - 仅在 PK 选择期间，MySQL 是否默认对 PK 字段进行排序？
我正在尝试使用连接从两个大表中进行选择: EXPLAIN SELECT SQL_NO_CACHE e.* FROM `table_A` e JOIN (SELECT id FROM
python - Django (?P\d+) 与
我有这个 post_list.html 文件:(忽略第二个 'blog:post_detail' url) {% for post in post_list %} {{ post.title }}
java - JPA @OneToMany 具有复合 PK - PK/FK 重叠
我需要使用 JPA 处理现有数据库表。这些表使用复合主键。外键属性与表的主键重叠。简化示例，每个“订单”都有许多“OrderItems” Table Order
java - hibernate : Opinions in Composite PK vs Surrogate PK
据我所知，每当我在 JPA/Hibernate 实体内的 Long 字段上使用 @Id 和 @GeneratedValue 时，我实际上是在使用代理键，我认为这是定义主键的一种非常好的方式，考虑到我在
django - RequestFactory & reverse with pk(必须用对象 pk 或 slug 调用)
所以我有这段代码: request = self.factory.get(reverse('portal-edit-automation', args=(self.rule.id,))) respon
mysql - 添加 PK 时，隐藏的 MySQL [InnoDB] PK 会发生什么？
当在MySQL中使用InnoDB存储引擎时，如果在创建表时不指定PRIMARY KEY，则使用隐藏唯一索引作为聚集索引。由于数据字典上的互斥锁，我了解到这些隐藏索引可能会导致争用。我的问题是 - 如
mysql - 错误 1175 : Delete rows from table1 where PK matches PK from table2
我正在尝试删除 table1 中与 table2 中具有匹配 PK 的所有行。尽管我的 WHERE 子句使用了键，但我收到错误 1175。我熟悉切换安全模式，但这不应该成为问题，因为我的 WHERE
python - 错误通用详细 View 必须使用对象 pk 或 slug 调用，即使使用 pk
我正在尝试更新具有外键字段的 View 的记录，因此出现错误，因为我尝试更新没有外键字段的另一个模型并且效果很好。还有其他类似的问题，但就我而言，我通过了 pk。 urls.py urlpatte
python.NLTK(WindowDiff 和 PK)与 python.Segeval(WindowDiff 和 PK)
Beeferman 的 PK 和 WindowDIFF 的 Python NLTK 实现从两者的 python segeval 实现中得到完全不同的结果。使用相同的参数。 hyp: 01001000

首页

博学

6Ren·AI

商城

sql - 将表 PK 值拆分为大致相同大小的范围