gpt4 book ai didi

algorithm - bootstrapping 如何提高系统发育重建的质量?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:40:27 25 4
gpt4 key购买 nike

我对bootstrapping的理解是你

  1. 使用某种算法从序列矩阵(假设是核苷酸)构建一棵“树”。
  2. 你存储那棵树。
  3. 从1扰动矩阵,重建树。

我的问题是:从序列生物信息学的角度来看,3 的目的是什么?我可以尝试“猜测”,通过更改原始矩阵中的字符,您可以删除数据中的伪影吗?但是我对这个猜测有疑问:我不确定为什么有必要移除这些工件。就其本质而言,序列比对应该通过寻找长的相似性来处理伪影。

最佳答案

在系统发育学和其他地方,自举法不会提高您试图估计的任何东西的质量(在这种情况下是一棵树)。它的作用是让您了解您对从原始数据集中获得的结果有多自信。自举分析回答了“如果我多次重复这个实验,每次都使用不同的样本(但大小相同),我希望多长时间能得到相同的结果?”这样的问题。这通常按边分割(“我希望在推断树中看到这条特定边的频率如何?”)。

抽样误差

更准确地说,bootstrapping 是一种近似测量估计中的预期抽样误差水平的方法。大多数进化模型都具有以下特性:如果您的数据集有无限数量的站点,您将保证恢复正确的树和正确的分支长度*。但是对于有限数量的站点,这种保证就消失了。您在这些情况下推断的内容可以被认为是正确的树加上抽样误差,其中抽样误差会随着样本量(站点数量)的增加而减小。我们想知道的是,假设我们有(比方说)1000 个站点,我们应该期望每条边的采样误差。

我们想做但做不到的事

假设您使用 1000 个站点的对齐来推断原始树。如果您能够以某种方式为所有分类单元对尽可能多的位点进行排序,您可以从每个位点中提取另外 1000 个位点并再次执行此树推理,在这种情况下,您可能会得到一棵类似于但略有不同的树原来的树。您可以一次又一次地执行此操作,每次使用新一批的 1000 个站点;如果你多次这样做,你会产生一个树的分布。这称为估计的抽样分布。一般来说,它在真树附近的密度最高。如果您增加样本量(站点数量),它也会更加集中在真树周围。

这个分布告诉我们什么?它告诉我们由这个进化过程(树 + 分支长度 + 其他参数)生成的 1000 个站点的任何给定样本实际上给我们提供真实树的可能性有多大——换句话说,我们对原始分析的信心有多大.正如我上面提到的,这种获得正确答案的概率可以按边分解——这就是“自举概率”。

我们可以做什么

我们实际上没有能力神奇地生成我们想要的尽可能多的对齐列,但我们可以“假装”我们这样做,只需将原始的 1000 个站点集合视为我们从中抽取的站点池一批新的 1000 个站点,每个副本都有重复。这通常会产生与真正的 1000 个站点采样分布不同的结果分布,但对于大型站点计数,近似值是好的。


* 这是假设数据集实际上是根据该模型生成的——除非我们进行模拟,否则我们无法确定这一点。此外,某些模型(如未校正的简约性)实际上具有自相矛盾的性质,即在某些情况下,您拥有的站点越多,恢复正确树的概率越低!

关于algorithm - bootstrapping 如何提高系统发育重建的质量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7734576/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com