bioinformatics - FASTA算法说明-6ren

bioinformatics - FASTA算法说明

转载作者：行者123 更新时间：2023-12-04 06:42:29

25

4

我试图了解 FASTA 算法在数据库中搜索查询序列的相似序列的基本步骤。这些是算法的步骤:

识别 I 和 J 之间的常见 k 词

用 k 字匹配对对角线进行评分，确定 10 个最佳
对角线

使用替代分数矩阵对初始区域重新评分

使用间隙连接初始区域，惩罚间隙

执行动态规划以查找最终对齐

我对使用 PAM250 分数矩阵的第 3 步和第 4 步以及如何“使用间隙连接”感到困惑。

有人可以“尽可能具体地”为我解释这两个步骤。
谢谢

最佳答案

这就是 FASTA 的工作原理:

找到所有 k 长度的身份，然后通过选择那些 找到局部相似的区域致密 具有 k 字身份(即许多 k 字，之间没有太多差距)。使用最好的十个初始区域。

通过以通常的方式应用替换矩阵，初始区域沿着它们的长度重新计分。确定最佳评分子区域。

使用动态规划创建修剪初始区域的对齐，间隙惩罚为 20。不包括分数太低的区域。

使用“带状”动态编程(Smith-Waterman)优化 3) 中的对齐。这是仅限于原始比对周围 32 个残基宽频带的动态编程，与完全动态编程相比，这可以节省空间和时间。

如果在 3) 中没有足够的初始区域来形成比对，则可以使用 2) 中的最佳分数按相似性对序列进行排序。 3) 和 4) 的分数也可用于此目的。

不幸的是，我的机构无法访问原始 FASTA 论文，因此我无法提供上述各种参数的原始值。

关于bioinformatics - FASTA算法说明，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8366581/

25

4

0

文章推荐： multithreading - OS X 有哪些类型的线程？

文章推荐： event-listener - 自定义元素的多个实例的通用事件监听器

文章推荐： unreal-engine4 - 如何在所有蓝图中找到一些东西？

文章推荐： actionscript-3 - as3 文本字段占位符

bioinformatics - 执行检查点中间命令
我目前遇到了一些关于 snakemake 运行检查点所需的中间规则的问题。在尝试解决此问题后，我认为问题出在 aggregate_input 函数中的 expand 命令中，但无法弄清楚为什么会这样。
bioinformatics - 基于变异和人类引用构建DNA序列
1000 基因组计划为我们提供了有关数千人 DNA 序列与人类引用 DNA 序列“变异”的信息。变体存储在 VCF 中文件格式。基本上，对于该项目中的每个人，我们都可以从 VCF 文件中获取他/她的
bioinformatics - 在参数上使用通配符
我尝试使用一种工具，但我需要在输入时使用通配符。这是一个例子: aDict = {"120":"121" } #tumor : normal rule all: input: expand("{c
bioinformatics - NCBI基因数据库问题
我正在尝试查找带有基因名和染色体位置的gene_info 文件。但是，我似乎无法在 NCBI FTP 站点上找到它。谁能给我指点？最佳答案见:ftp://ftp.ncbi.nlm.nih.gov/
bioinformatics - 如何将所有染色体合并到一个文件中
我下载了 1000 个基因组数据(染色体 1 -22)，采用 VCF 格式。如何将所有染色体合并到一个文件中？我应该先将所有染色体转换为 plink 二进制文件，然后再执行 --bmerge mmer
bioinformatics - FASTA算法说明
我试图了解 FASTA 算法在数据库中搜索查询序列的相似序列的基本步骤。这些是算法的步骤: 识别 I 和 J 之间的常见 k 词用 k 字匹配对对角线进行评分，确定 10 个最佳对角线使用替代分
bioinformatics - 大规模图中的拓扑排序示例
我对找到一些需要按拓扑排序的现实世界中的海量数据集(> = 1M)感兴趣。也许与生物信息学有关的东西？最佳答案您看过Stanford Large Network Dataset Collectio
bioinformatics - 如何使用plink将vcf文件转换为ped文件？
我正在尝试使用 plink 将 .vcf 文件转换为 .ped 文件。我在网上看了一些手册和帖子，但似乎没有人特别提到如何将vcf转换为ped。我希望这里可能有一些专家，他们有使用plink将vcf
bioinformatics - 在fastq文件中过滤具有超过8个相同连续核苷酸的序列？
我想过滤具有超过 8 个相同连续核苷酸的序列，例如 "GGGGGGGG" , "CCCCCCCC"等在我的 fastq 文件中。我该怎么做？最佳答案快速且不正确的方式，可能足够接近:grep -
bioinformatics - 在生物信息学中，什么是单例？
我很快意识到，生物信息学并不是一门定义明确且易于访问的学科。我与我的一些结果存在明显差异。我用过 samtools view -b -h -f 8 fileName.bam > mateUnmapp
bioinformatics - multiFASTA 文件处理
我很想知道是否有任何生物信息学工具能够处理 multiFASTA 文件，为我提供序列数量、长度、核苷酸/氨基酸含量等信息，并可能自动绘制描述图。也可以使用 R BIOconductor 解决方案或
bioinformatics - 在源代码中编码 Blosum62
我正在尝试使用“Needleman -Wunsch”的“全局比对”算法来实现蛋白质成对序列比对。我不清楚如何在我的源代码中包含“Blosum62 矩阵”来进行评分或填充二维矩阵？我用谷歌搜索发现大
Java Bioinformatics - 获取字符串中多个特定单词的所有索引
我在大学的生物信息学类(class)中有一个项目，我项目中的其中一件事是基因预测。我今天的问题是如何获取字符串中多个特定单词的所有索引。例如，在我这里的例子中，我想找到所有出现的起始密码子 ("AU
bioinformatics - 使用不推荐使用的动态 API 构建具有动态输入的工作流
我想做一个工作流，从远程服务器下载一些 FASTQ 文件的列表，检查 md5 并运行一些后处理，例如对齐。我了解如何使用两个工作流程来实现这一点: 首先下载fastq文件列表文件，例如md5文件。
bioinformatics - 按 GC 内容分箱序列读取
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
bioinformatics - 是否可以将字符串变量而不是文件传递给 BLAST 搜索？
我正在编写一个 python 脚本，并希望将查询序列信息作为字符串变量而不是 FASTA 格式文件(如果可能)传递给 blastn。我使用 Biopython 的 SeqIO 将多个转录名称存储为键
bioinformatics - RNA 剪接 Python
我有一个基因序列 - "acguccgcaagagaagccuuaauauauucaaaaagcuacgccucagauuucgcgcucgagcccaaaacaacugguguacggguugauc
bioinformatics - 如何设置不同颜色的 Cytoscape 网络节点中心？
我有一个网络 ( figure A ), . 在这个图中，每个节点中心(我很困惑，它是一个子节点吗？)的颜色与节点填充颜色不同，我该怎么做？谢谢你。最佳答案有趣的图。光是看着，我就可以想象出几种方
bioinformatics - 如何使用 PLink 删除重复的 SNP？
我正在与 PLINK 一起工作分析全基因组数据。有谁知道如何去除重复的 SNP？最佳答案在 PLINK 1.9 中，使用 --list-duplicate-vars suppress-first
bioinformatics - 使用 Snakemake 的 fastqc
我有一个通过 Snakemake 的样本列表。当我到达我的 fastqc 步骤时，我突然发现每个样本有两个文件(R1 和 R2 文件)。考虑以下规则: rule fastqc: input:

首页

博学

6Ren·AI

商城

bioinformatics - FASTA算法说明