mysql - MySQL 的查询规划器中的 "no statistics"案例的记录/扇出逻辑是如何导出的？-6ren

mysql - MySQL 的查询规划器中的 "no statistics"案例的记录/扇出逻辑是如何导出的？

转载作者：行者123 更新时间：2023-11-30 21:55:08

25

4

在MySQL Server 5.7源码中，公式records = (x * (b-a) + a*c-b)/(c-1)在query planner中用于计算记录的数量当 key 分布统计不可用时记录。

这个公式是从哪里来的，它是如何推导出来的，或者为什么这个特定的公式是正在使用的公式？它是否有既定的理论基础，如果有，它的基础是什么？

https://github.com/mysql/mysql-server/blob/5.7/sql/sql_planner.cc#L529

          Assume that the first key part matches 1% of the file
          and that the whole key matches 10 (duplicates) or 1
          (unique) records.
          Assume also that more key matches proportionally more
          records
          This gives the formula:
          records = (x * (b-a) + a*c-b)/(c-1)
          b = records matched by whole key
          a = records matched by first key part (1% of all records?)
          c = number of key parts in key
          x = used key parts (1 <= x <= c)

最佳答案

如果您完全没有关于您的问题的数据，您将被迫进行估算。

该公式的一般形式在评论中进行了解释:

如果我们仅使用多列索引(具有 c 列)的一个键列 (x)，我们将得到 a 行(1%总行数)。所以对于 x=1，根据定义，结果是 a。
如果我们知道多列索引的每个键列的值，我们就可以得到每个整个键的行数 (b)；所以对于 x=c，我们根据定义得到 b 行(即 1 或 10)。<
在两者之间(如果我们对超过 1 个键列使用键值，但不是全部)，对于每个额外的已知键值，我们可以排除一些额外的行:我们有 a-b 行不属于对于我们知道我们的完整键(将有 b 行)的情况，根据定义，它们应按可用键列(( x-1)/(c-1)).
(x-1)/(c-1) 中的 -1 只是一个移位(你可以使用不同的变量名)，因为我们只需要计算 additional 列，但 c 和 x 是包含第一列的计数。 (在时间序列中，您将为第一列调用参数t=0，-1 就是这样做的)。

所以总而言之，我们得到 a - (a-b) * (x-1)/(c-1) (第一个键列的 a 减去我们按比例排除)。这就是(如果你稍微改变一下那个表达式)给出的公式。快速完整性检查:对于 x=1 (x-1=0)，第二项是 0 我们得到 a ，由第一个条件定义；对于 x=c，我们得到第二个条件定义的 a-(a-b)=b。

使用这些假设来做出这个假设并非不合理，但您可能会找到一个不同的公式，同样有意义。不过，要争论它更好将是一项更艰巨的任务。

然后是选择值的问题(在本例中为 b=10 和 1%)。您显然可以选择任何值。为了在没有任何可靠数据的情况下做到这一点，除了直觉，有一个叫做 Fermi estimate 的概念。 :

The estimation technique is named after physicist Enrico Fermi as he was known for his ability to make good approximate calculations with little or no actual data.

您基本上只需为您的输入参数选择 magnite (1, 1000000, 1/100) 的数量级，您就会得到一个合理的数量级的结果。

那么您希望非唯一键覆盖多少行？它大于 1，否则您会将其设为唯一键，但它更像是 2、10 还是 100？ 10 可能是一个很好的猜测(它涵盖了该估计中大约 3 到 30 的值)。因此，尽管这个数字可能来自一项为期 2 年的全局 key 分配调查，但通常以 10 的幂的估计值以这样的方式得出。如果您想绝对确定，请询问开发人员。

还有 obligatory xkcd对于此类主题:What-if? Paint the Earth

关于mysql - MySQL 的查询规划器中的 "no statistics"案例的记录/扇出逻辑是如何导出的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45528370/

25

4

0

文章推荐： mysql - 如何创建MySQL分层递归查询

文章推荐： C# 获胜。 form - 如何在 webbrowser 控件中支持 XHTML？

文章推荐： mysql - 如果列中的相同值不止一次，则选择一次列

文章推荐： c# - 升级到 EF 6，现在出现 LINQ 错误

C++ 双重释放或损坏(出)
我在使用带有 vector STL 的迭代器时遇到了这个错误。代码:- #include #include void print_vec(std::vector vec) { auto
JAVA : regarding System. 出
JAVA:两个引用“p”&&“pp”之间有区别吗？ PrintStream p = new PrintStream(System.out); p.println("lol");
git - 如何使用git从master分支中 pull 出？
我尝试从主分支中拉出，但收到错误消息: $ git --no-optional-locks -c color.branch=false -c color.diff=false -c color.sta
c - 随机双自由或腐败(出)C
我面临着一个让我抓狂的问题! 我有一个函数，这个: void load_weapons3(t_env *e, char *name, int x, t_weapon *w) { char
c++ - 双自由或腐败(出) - C++
我正在尝试使用 CUDA 中的最小值、最大值、总和和平均值实现并行归约。这是我目前的主要代码片段。 int main() { const auto count = 8; const
c++ - 双重自由或腐败(出)C++
我知道 double free 或 corruption 错误通常是对 big 3 的违规，但在这种情况下，我找不到违规发生的地方。我有一个复制构造函数、析构函数和赋值运算符，适用于任何处理指针的东西
c - 焦点和焦点入(出)事件信号之间的区别
GTK+ 中的“focus”和“focus-in(out)-event”信号有什么区别？哪个先发射？它们与键盘(TAB)和鼠标点击有什么关系。他们互相依赖吗？我问这个是因为我想在顶层窗口中跟踪当前聚
c - 双自由或腐败(出)fclose
*** glibc detected *** /home/ghoshs/workspace/Simulator/Debug/Simulator: double free or corruption (
c++ - 我怎么知道双重释放或损坏(出)错误是从哪里来的？
#include #include #include #include using namespace std; #define MAX_WEIGHT 1000000 class Set {
Git 从错误的分支中 pull 出
我在服务器上有两个分支一个叫 R2 的分支和一个叫 DEV 的分支我无意中登录了错误的服务器，进入了存储库并执行了GIT pull 源开发但是存储库在 R2 上。所以我意识到我的错误然后尝试通过做一个
java - Gremlin:从给定顶点查找所有下游(出)路径
我有一个包含循环的大约 1000 个顶点和 3000 个边的有向图。我试图从给定的顶点找到所有下游(出)路径。使用以下 Gremlin 查询时 g.V(45712).repeat(out().si
delphi - 如何使用手势识别缩放方向(进/出)并应用缩放效果？
使用 Delphi XE 2 我试图确定缩放方向以将缩放效果应用于图像(TImage)，但没有找到执行此操作的函数，并且图像的 OnGesture 事件中的 EventInfo 属性没有此信息. 我见
c - 如何克服c中的双重释放或损坏(出)中止(核心转储)
我正在尝试创建一个 Zoom_image 函数，它使用离散傅里叶变换来缩放灰度图像。如果图像大小小于或等于 4*4 但大小增加，我包含的代码可以工作。它给出“双重释放或损坏(出)中止(核心转储)”错误
c - 双重释放或损坏(出)中止(核心转储)
当我执行 popAll 函数时，出现以下错误: 双重释放或腐败(出)中止(核心转储) 我想我已经将错误来源缩小到了这个函数。 IntegerStack 是我制作的一个简单的 ADT，其中包含一个名为
iOS:在滚动进/出 View 时更改图像位置
我有网络开发背景，我正在尝试创建类似于 this technique 的东西适用于 iOS(使用 Cocoa/Obj C)。我在谷歌搜索资源时遇到了很多困难，因为 iOS 中的“视差”往往指的是 iO
php - 使用(出)Solr 进行分面搜索
我想实现一个 faceted search对于我的一个项目。我正在使用 PHP5、Mysql 和 Symfony 1.4。显然社区指向Apache Solr这似乎正是我想要完成的。问题是该网站将在不
Git:强制从特定分支 pull 出(并防止覆盖)
我知道有 questions floating around当您没有提供明确的分支名称时，关于来自特定分支的 git pull，但是我想知道即使用户确实指定了不同的分支，是否也可以强制 pull 分支
Git 推送提示非快进，即使远程已被 pull 出
我正在尝试将我的更改推送到 NAS 上的存储库。它以我无法理解的方式失败。 documentation声明默认情况下 push 仅适用于快进更新。很公平。所以我做了一个 git pull(我的 Rem
java - 一致性缓存 | ConcurrentHashMap 入，HashMap 出
我刚开始使用 Oracle 的 Coherence 缓存，我注意到这一点:如果我在缓存中放入一个 ConcurrentHashMap 对象，当我检索它时，我可以看到它被转换为一个普通的 HashMap
c++ - Sqlite3 和 pthread，双重释放或损坏(出)
我尝试创建一个连接到数据库的线程，从那里获取一些数据并打印到控制台。问题是当该线程完成时抛出异常: 双重免费或腐败(出局)中止(核心转储) 我尝试使用 sqlite3 和 pthread，但这两个并不

首页

博学

6Ren·AI

商城

mysql - MySQL 的查询规划器中的 "no statistics"案例的记录/扇出逻辑是如何导出的？