- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当数据库必须执行与另一个表的连接时,它可能会广泛地从以下三种策略中选择一种:
这里的推理是,如果需要保留大部分记录,完全忽略索引,避免I/O惩罚,只顺序读取整个表会更高效。在另一个极端,显然如果我们只需要从索引中读取几个叶节点,这将比读取整个表更快。
我不清楚的是相关性在这里扮演什么角色,以及我们应该如何考虑它。
专注于 Postgres,documentation在这里描述相关性:
Statistical correlation between physical row ordering and logical ordering of the column values. This ranges from -1 to +1. When the value is near -1 or +1, an index scan on the column will be estimated to be cheaper than when it is near zero, due to reduction of random access to the disk. (This column is null if the column data type does not have a < operator.)
下面是我们可以获取给定表中每一列的相关值的方法:
SELECT attname, correlation
FROM pg_stats
WHERE tablename = 'your_table';
据我了解,使用二级索引总是需要对聚簇索引执行 I/O 搜索以查找数据。据我所知,唯一能使 I/O 变好或变坏的是二级索引是否非常接近磁盘上的聚簇索引。但我不清楚相关性对于确定 I/O 寻道的成本有多重要,因为寻道总是需要的。
有人可以解释相关性在这里的物理含义吗?也许我的困惑是由于不了解数据库如何执行索引扫描而引起的。
最佳答案
相关性仅对具有总排序的数据类型的列有意义,也就是说,它支持 operator family属于 btree
访问方法(<
、<=
、=
、>=
和 >
运算符)。
如果较大的值倾向于出现在表的物理末端附近而较小的值倾向于出现在开头附近,则相关性为正。值为 1 表示值按排序顺序存储在表中,-1 表示它们按降序存储。
PostgreSQL 中的索引扫描是这样工作的:
第一个匹配条目位于索引中。
如果visibility map指示相应的表 block 仅包含对所有人可见的元组并且我们不需要未存储在索引中的列,我们有一个结果并继续第 4 步(如果优化器认为这适用于大多数索引条目,它将规划一个 index only scan )。
从表中提取相应的行并检查可见性。如果可见且满足过滤条件,我们就找到了结果。
沿扫描方向遍历索引,找到下一个索引项,看是否满足扫描条件。如果是,则返回第二步,否则我们就完成了。
这会导致表 block 随机读取,除非它们已经在共享缓冲区中。
现在如果相关性很高,则更有可能发生两件事:
在索引扫描中找到的下一个元组与前一个元组在同一个表 block 中。然后它已经在共享缓冲区中并且不会导致读取。
总而言之,您最终会碰到更少的不同表 block :彼此相邻的索引条目往往也彼此靠近,通常在同一个 block 中。
如果下一个索引条目与上一个索引条目不指向同一个表 block ,则很可能指向下一个表 block 。这导致表 block 的顺序读取,这在旋转磁盘上比随机读取更有效。
让我用一个例子来说明这一点,假设一个索引在一个完全相关的列上:
找到的第一个索引条目指向表 block 42,第二个也是,第三个到第 30 个指向 block 43,接下来的 20 个索引条目将指向 block 44。
因此索引扫描将访问 50 个元组,但它只会从磁盘读取 3 个 block ,并且按顺序读取这些 block (首先是 block 42,然后是 block 43,然后是 block 44)。
如果没有相关性,50 个元组可能位于不同的表 block 中(假设表很大),这意味着 50 次随机磁盘读取。
因此,当相关性高时,索引扫描成本更低,而如果相关性低,则向后索引扫描成本更低。优化器使用相关性相应地调整估计成本。
关于postgresql - 了解 PostgreSQL 中的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52288457/
我的 postgresql 有问题,我复制了所有文件,然后将其删除。然后,我安装了新的,问题就解决了。现在可以将旧文件和文件导入新文件吗? 最佳答案 如果它们是相同的主要版本(即 9.0 到 9.0.
我想使用 Postgresql 9.2.2 来存储我的应用程序的数据。我不得不构建一个应该基于数据库级别的触发器(当数据库启动时,这个触发器将被触发并执行。),当 postgresql 服务器启动时是
我已经使用下面的查询从 Postgresql 目录表中获取 Sequence 对象的完整信息 select s.sequence_name, s.start_value, s.minimum_valu
Postgres 版本:9.3.4 我需要执行驻留在远程数据库中的函数。该函数根据给定的参数返回一个统计数据表。 我实际上只是在我的本地数据库中镜像该函数,以使用我的数据库角色和授权来锁定对该函数的访
我在 CentOS 7 上,我正在尝试解决“PG::ConnectionBad: FATAL: Peer authentication failed for user”错误。 所以我已经想出我应该更改
我写了一个触发器函数,在触发器表列名上循环,我从具有不同列的不同表调用该函数。该函数将列名插入到数组中并在它们上循环,以便将值插入到另一个模式和表中。 函数和触发器创建脚本: DROP TRIGGER
PostgreSQL 的默认空闲连接超时是多少,我运行了 show idle_in_transaction_session_timeout 查询并返回了 0,但是值 0 表示此选项被禁用,但我想知道默
我需要将十六进制值存储到数据库表中,谁能推荐我需要用于属性的数据类型? 提前致谢 最佳答案 您可以使用bytea 来存储十六进制格式。更多信息 can be found in the postgres
我有一个具有复合主键的(大)表,由 5 列(a、b、c、d、e)组成。 我想高效地选择具有其中两列 (a + e) 的所有行到给定值。 在 PostgreSQL 中,我需要索引吗?或者数据库会使用主键
在阅读 PostreSQL (13) 文档时,我遇到了 this页面,其中列出了不同日期时间类型的存储大小。 除其他外,它指出: Name Storag
我有两个大整数的巨大表(500 000 000 行)。两列都被单独索引。我正在使用语法批量插入此表: INSERT into table (col1, col2) VALUES(x0, y0), (x
有一台 CentOS7 Linux 机器正在运行(不是由我管理;拥有有限的权限)。 请求在其中设置 PostgreSQL。 刚刚从 CentOS 存储库安装了 PostgreSQL: sudo yum
我在 Ubuntu 18.04 上安装了 Postgresql 10,但不知何故坏了,不会重新启动。我可以重新安装它而不破坏它的数据库,以便我可以再次访问数据库吗? pg_dump 不起作用。 最佳答
我想在 UNIX 中使用 crontab 自动备份 PostgreSQL 数据库。我已经尝试过,但它会创建 0 字节备份。 我的 crontab 条目是: 24 * * * * /home/desk
我已经完成了PG服务器的安装。我希望能够使用 pgAdmin 远程连接到它,但不断收到服务器不听错误。 could not connect to server: Connection refused
Oracle 支持波斯历但需要知道 PostgreSQL 是否支持波斯历? 如果是,那么我们如何在 PostgreSQL 中将默认日历类型设置为 Persian 而不是 Gregorian(在 Ora
假设我们有一个带有表的 SQL 数据库 Person以及访问它的几个应用程序。出于某种原因,我们想修改 Person表以向后不兼容的方式。 保持兼容性的一种潜在解决方案是将表重命名为 User并创建一
我使用 PostgreSQL 中的模式来组织我庞大的会计数据库。每年年底,我都会通过为下一年创建一个新模式来进行协调过程。 新模式的文件是否与旧模式物理分离?或者所有模式一起存储在硬盘上? 这对我来说
我正在尝试使用配置文件中的以下配置参数调整 PostgreSQL 服务器: autovacuum_freeze_max_age = 500000000 autovacuum_max_workers =
我的数据包含数据库列中的表情符号,即 message_text ------- 🙂 😀 Hi 😀 我只想查询包含表情符号的数据的行。在 postgres 中是否有一种简单的方法可以做到这一点?
我是一名优秀的程序员,十分优秀!