gpt4 book ai didi

postgresql - GROUP BY 在 Postgres 中的表现

转载 作者:行者123 更新时间:2023-11-29 14:05:29 25 4
gpt4 key购买 nike

我有一个大表(超过 200 万条记录,其中包含大量列)。我打算为重复数据删除目的做一个 GROUP BY。我想知道以下两种策略中哪种策略效果更好?

  1. GROUP BY 多列(col_a, col_b, col_c)
  2. 添加一个新列 dedup_col,该列由使用 col_a、col_b、col_c 形成的规范化字符串组成,然后对 dedup_col 执行 GROUP BY。 dedup_col 将预先填充。

我知道我可以运行基准测试,但我希望在开始实现之前获得一些理论输入。

最佳答案

看在上帝的份上,请选择选项 1。不要求助于 #2,除非您对 #1 有严肃的性能选项,并且您已用尽所有其他选项(包括索引)来解决它。

选项 #2 是个糟糕的主意。实际上,您正在通过实现一个穷人版本的索引来重新发明轮子……很糟糕。

在您发现性能问题之前,永远不要为了性能而对数据进行非规范化(这就是您在选项 2 中所做的)。即使那样,您也可能不应该这样做。

仅供引用:如果您正确设置了索引,则 200 万条记录不是一个大数据库。

关于postgresql - GROUP BY 在 Postgres 中的表现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9388584/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com