- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当数据库必须执行与另一个表的连接时,它可能会广泛地从以下三种策略中选择一种:
这里的推理是,如果需要保留大部分记录,完全忽略索引,避免I/O惩罚,只顺序读取整个表会更高效。在另一个极端,显然如果我们只需要从索引中读取几个叶节点,这将比读取整个表更快。
我不清楚的是相关性在这里扮演什么角色,以及我们应该如何考虑它。
专注于 Postgres,documentation在这里描述相关性:
Statistical correlation between physical row ordering and logical ordering of the column values. This ranges from -1 to +1. When the value is near -1 or +1, an index scan on the column will be estimated to be cheaper than when it is near zero, due to reduction of random access to the disk. (This column is null if the column data type does not have a < operator.)
下面是我们可以获取给定表中每一列的相关值的方法:
SELECT attname, correlation
FROM pg_stats
WHERE tablename = 'your_table';
据我了解,使用二级索引总是需要对聚簇索引执行 I/O 搜索以查找数据。据我所知,唯一能使 I/O 变好或变坏的是二级索引是否非常接近磁盘上的聚簇索引。但我不清楚相关性对于确定 I/O 寻道的成本有多重要,因为寻道总是需要的。
有人可以解释相关性在这里的物理含义吗?也许我的困惑是由于不了解数据库如何执行索引扫描而引起的。
最佳答案
相关性仅对具有总排序的数据类型的列有意义,也就是说,它支持 operator family属于 btree
访问方法(<
、<=
、=
、>=
和 >
运算符)。
如果较大的值倾向于出现在表的物理末端附近而较小的值倾向于出现在开头附近,则相关性为正。值为 1 表示值按排序顺序存储在表中,-1 表示它们按降序存储。
PostgreSQL 中的索引扫描是这样工作的:
第一个匹配条目位于索引中。
如果visibility map指示相应的表 block 仅包含对所有人可见的元组并且我们不需要未存储在索引中的列,我们有一个结果并继续第 4 步(如果优化器认为这适用于大多数索引条目,它将规划一个 index only scan )。
从表中提取相应的行并检查可见性。如果可见且满足过滤条件,我们就找到了结果。
沿扫描方向遍历索引,找到下一个索引项,看是否满足扫描条件。如果是,则返回第二步,否则我们就完成了。
这会导致表 block 随机读取,除非它们已经在共享缓冲区中。
现在如果相关性很高,则更有可能发生两件事:
在索引扫描中找到的下一个元组与前一个元组在同一个表 block 中。然后它已经在共享缓冲区中并且不会导致读取。
总而言之,您最终会碰到更少的不同表 block :彼此相邻的索引条目往往也彼此靠近,通常在同一个 block 中。
如果下一个索引条目与上一个索引条目不指向同一个表 block ,则很可能指向下一个表 block 。这导致表 block 的顺序读取,这在旋转磁盘上比随机读取更有效。
让我用一个例子来说明这一点,假设一个索引在一个完全相关的列上:
找到的第一个索引条目指向表 block 42,第二个也是,第三个到第 30 个指向 block 43,接下来的 20 个索引条目将指向 block 44。
因此索引扫描将访问 50 个元组,但它只会从磁盘读取 3 个 block ,并且按顺序读取这些 block (首先是 block 42,然后是 block 43,然后是 block 44)。
如果没有相关性,50 个元组可能位于不同的表 block 中(假设表很大),这意味着 50 次随机磁盘读取。
因此,当相关性高时,索引扫描成本更低,而如果相关性低,则向后索引扫描成本更低。优化器使用相关性相应地调整估计成本。
关于postgresql - 了解 PostgreSQL 中的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52288457/
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
我有两个维度相等的矩阵(p 和 e),我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性 我使用了 Psych 库中的 corr.test() 函数,这是我所做的: libr
我有两个维度相等的矩阵(p 和 e),我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性 我使用了 Psych 库中的 corr.test() 函数,这是我所做的: libr
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。 但是,我收到以下错误: inv
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库,对其进行索引。然后您调用 Sphinx 获取 ID。 但是,如果我想创建一个非常微型 的搜索引擎怎么办?就几行数据,几
是否有我要在下面描述的模式/算法的名称?... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
早上好。这是我的问题:我有几个文件,如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献),我想归一化查询相关性对整体文档分数的影响,但是为此,我需要知道它可以取什么值。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
我有一个 Pandas 数据框,它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系,我的问题是
我有相同数据(公司)的 2 个信息源,我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序,但实际相关性/分数不包含在对象本身中。 这可能吗?我想将分数
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。 我试过df['corr'] = df['col1'].rolling(P).corr(df['
我正在处理一个大型数据集。不过,我将从一个小示例开始,以说明我要实现的目标。 我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score,但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换
我是一名优秀的程序员,十分优秀!