r - 结合 OTU 和税表并用 OTU id 替换实际序列(Phyloseq/dada2)-6ren

r - 结合 OTU 和税表并用 OTU id 替换实际序列(Phyloseq/dada2)

转载作者：行者123 更新时间：2023-12-04 11:45:45

27

4

我正在遵循此处描述的工作流程 https://f1000research.com/articles/5-1492/v2使用示例数据以及我自己的数据。这工作正常，但现在我无法生成 OTU 表，其中包含诸如“OTU00004”或更好的“kingdom_phylum_..._Pseudomonas_OTU00004”之类的标题。我想使用这样的表格来查找和绘制多个样本中某个 OTU 的丰度。

我创建了一个名为 ps 的对象，这似乎没问题:

ps <- phyloseq(tax_table(taxtab), sample_data(samdf),
                 otu_table(seqtab, taxa_are_rows = FALSE),phy_tree(fitGTR$tree))    

> ps
    phyloseq-class experiment-level object
    otu_table()   OTU Table:         [ 454 taxa and 360 samples ]
    sample_data() Sample Data:       [ 360 samples by 14 sample variables ]
    tax_table()   Taxonomy Table:    [ 454 taxa by 6 taxonomic ranks ]
    phy_tree()    Phylogenetic Tree: [ 454 tips and 452 internal nodes ]

但是 OTU 表中的标题和分类表中的相应行是实际的(这里是缩短的)序列

> head(otu_table(ps)[1])
     GCAAGCGTTACTCGGAATCACTGGGCGTAAAGAGCGCGTAGGCGG#shortened
F3D0                                             0

> head(tax_table(ps)[1])
Taxonomy Table:     [1 taxa by 6 taxonomic ranks]:
                                                         Kingdom
GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGCAGGCGGA#shortened "Bacteria"

有没有办法结合 otu 表和分类表中的信息并用编号的 OTU id 替换序列？我检查了几个 phyloseq 资源和常见问题解答，但我找不到答案。

我想要一张看起来像这样的表:

        taxonomy_OTU00001   taxonomy_OTU00002   taxonomy_OTU00003
F3D0    #counts             #counts             #counts
F3D1    #counts             #counts             #counts
F3D11   #counts             #counts             #counts
F3D125  #counts             #counts             #counts

由于此步骤之前的工作流程非常耗时，我不确定如何为此问题提供可重现的示例。

编辑:我按照 dww 的建议生成了一个示例子集。

short_otu2 = short_otu = head(otu_table(ps)[,c(1:6)])  # seq as colnames 
short_tax2 = short_tax = tax_table(ps)[colnames(short_otu), ]  # seq as rownames
# shorten seqs, must still be unique
colnames(short_otu2) <- substr(colnames(short_otu), 0, 50)
rownames(short_tax2) <- substr(rownames(short_tax), 0, 50)

library(phyloseq)
> dput(short_otu2)
new("otu_table", .Data = structure(c(526L, 375L, 2931L, 994L,
2061L, 419L, 319L, 330L, 1737L, 623L, 1868L, 350L, 402L, 207L,
1880L, 577L, 887L, 303L, 413L, 64L, 838L, 698L, 939L, 484L, 146L,
126L, 496L, 440L, 1183L, 184L, 462L, 37L, 26L, 782L, 271L, 310L
), .Dim = c(6L, 6L), .Dimnames = list(c("F3D0", "F3D1", "F3D11",
"F3D125", "F3D13", "F3D141"), c("GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGCAGGCGGAAGAT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGCAGGCGGACTCT", "GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGGCTGT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGGCTTT", "CCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGAGCGTAGGTGGATTGT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGCCTGC"))), taxa_are_rows = FALSE)

> dput(short_tax2)
new("taxonomyTable", .Data = structure(c("Bacteria", "Bacteria",
"Bacteria", "Bacteria", "Bacteria", "Bacteria", "Bacteroidetes",
"Bacteroidetes", "Bacteroidetes", "Bacteroidetes", "Bacteroidetes",
"Bacteroidetes", "Bacteroidia", "Bacteroidia", "Bacteroidia",
"Bacteroidia", "Bacteroidia", "Bacteroidia", "Bacteroidales",
"Bacteroidales", "Bacteroidales", "Bacteroidales", "Bacteroidales",
"Bacteroidales", "Bacteroidales_S24-7_group", "Bacteroidales_S24-7_group",
"Bacteroidales_S24-7_group", "Bacteroidales_S24-7_group", "Bacteroidaceae",
"Bacteroidales_S24-7_group", NA, NA, NA, NA, "Bacteroides", NA
), .Dim = c(6L, 6L), .Dimnames = list(c("GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGCAGGCGGAAGAT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGCAGGCGGACTCT", "GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGGCTGT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGGCTTT", "CCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGAGCGTAGGTGGATTGT",
"GCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGTGCGTAGGCGGCCTGC"), c("Kingdom",
"Phylum", "Class", "Order", "Family", "Genus"))))

最佳答案

这是问题的一部分“用 OTU ids (Phyloseq/dada2) 替换实际序列？”

我联系了 phyloseq/dada2 开发人员，根据 Susan Holmes 的回复 (https://github.com/joey711/phyloseq/issues/1030)，我想出了这段代码，用编号的 OTU header 替换扩增子序列。

进一步的讨论可以在这里找到:https://github.com/joey711/phyloseq/issues/213

# this changes the header from the actual sequence to Seq_001, Seq_002 etc
taxa_names(ps)
n_seqs <- seq(ntaxa(ps))
len_n_seqs <- nchar(max(n_seqs))
taxa_names(ps) <- paste("Seq", formatC(n_seqs, 
                                            width = len_n_seqs, 
                                            flag = "0"), sep = "_")
taxa_names(ps)

将分类法包含在标题中的一种可能方法如下(从上面继续):

# generate a vector containing the full taxonomy path for all OTUs
wholetax <- do.call(paste, c(as.data.frame(tax_table(ps))
                  [c("Kingdom", "Phylum", "Class", "Order", "Family", "Genus")], 
                  sep = "__"))  # to distinguish from "_" within tax ranks

# turn the otu_table into a data.frame
otu_export <- as.data.frame(otu_table(ps))
tmp <- names(otu_export)

# paste wholetax and OTU_ids together
for(i in 1:length(tmp)){
names(tmp)[i] = paste(wholetax[i], tmp[i], sep = "__")
}

# overwrite old names
names(otu_export) <- names(tmp)

> head(otu_export)[5]

# output:  
     Bacteria__Bacteroidetes__Bacteroidia__Bacteroidales__Bacteroidaceae__Bacteroides__Seq_005
F3D0                                                                                         146
F3D1                                                                                         126
F3D11                                                                                        496
F3D125                                                                                       440
F3D13                                                                                       1183
F3D141                                                                                       184

这还不包括对表格之间正确排序的测试!因此，请确保粘贴和覆盖正确。

这样你就有了一个 data.frame，其中包含每个分类等级、OTU id、样本名称和一个文件中的计数的分类“可拆分”。但是除了导出文件之外，您仍然维护 phyloseq 结构，其中 OTU_id 链接不同的表，例如 otu_table() 和 tax_table()。另一种方法是提供 wholetax矢量到 taxa_names()命令，我没有测试过。

非常欢迎改进建议!

关于r - 结合 OTU 和税表并用 OTU id 替换实际序列(Phyloseq/dada2)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53032504/

27

4

0

文章推荐：围绕间隙的 SQL 分组

文章推荐： recommendation-engine - 我在哪里可以了解推荐系统？

文章推荐： intellij-idea - 在 IDEA IntelliJ 中更改版本控制

文章推荐： flash - 用于编辑 .fla 文件的免费 Flash IDE

Mdx - 标志 - 实际
我有两个维度 DimFlag 和 DimPNL 以及一个事实表 FactAmount 。我正在寻找:当 pnl 是 stat(Is Stat=1) 时:sum (Actual x FlagId)对于
jira - JQL 实际 "contains"
我想对包含其部分内容的文本字段执行简单搜索，但我不知道从哪里开始。我基本上想要人们对“包含搜索”的期望。如果我在 issue 中搜索 345 ，我会想要这个结果: 123456 234567 3456
c# - 我如何获得*实际*主机应用程序实例？
我在 VBE 的 C# 插件中有这段代码(强调“VBE”:它不是 MS-Office 插件): public abstract class HostApplicationBase : IHostApp
android - 实际 View 的高度不适合适当的内容
我有一个 ImageView，它显示来自资源的图像。ImageView 的宽度是固定的 (60dp)。高度设置为 wrap_content。调整图像大小以适合此宽度(节省宽高比 - 这很完美) 问题是
html - 实际 CSS 响应背景不响应(？)
我正在建立一个网站，但遇到了一个问题:谷歌浏览器开发者工具中的背景以较低/较高的分辨率延伸。当我直接从手机打开网站时，背景不适合屏幕，只是“剪切”了背景。这是网站:https://feargames
javascript - 实际
大小比预期的大
好吧，首先，这是 HTML 模板: ... ... ... ... 如您所见，页面位于标题下方，并且通过 JS 代码可见
algorithm - 检索相似条目的最快(实际)存储实现是什么？
我读到了 BK-trees (Burkhard-Keller-Trees) 几个月前，据说这是一种保存您想通过距离度量再次读取的内容的好方法。因此，在每种情况下，您都希望通过相似性检索某些内容。然而
Python:根据*实际*长度填充字符串
在 python 中，很容易根据字符数用空格填充字符串。例如: print "aaa".ljust(10) + "end" print "www".ljust(10) + "end" 输出是: aaa
design-patterns - 您如何在设计和(实际)实现应用程序之间取得平衡
我的问题不是特定于编程语言的，而是更通用的问题，以了解人们的思维方式。通常在大型开发公司中，每项工作都有特定的角色，例如程序员和架构师。因此架构师的观点是拥有完美的架构师和解决方案设计，另一方面程序
javascript - promise 实际 self 实现
我想将数据传递给 then 方法，但是当我通过给它 this.passedResolve 来执行此操作时，它会得到 undefined function Promises(callback){
erlang - Erlang 系统中最大(实际)节点数是多少
我希望使用 Erlang/Elixir 在金融市场创建一个平台即服务。我将在金融市场提供 AWS lambda 风格的函数，但我计划向客户分发我自己的基于 ARM 的硬件终端(基于 Nvidia Je
java - 实际 Jackrabbit/Oak 指南和文档
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
c - 如何确定AUTOSAR Runnable的(实际)循环时间
我已经看到很多代码，这些代码使用Runnable的循环时间来实现某些计时器/超时。问题是，如果有人决定更改此Runnable的循环时间，则计时器将不正确。例: #define FOO_TIMER_1
c# - WPF DataGrid 实际 ColumnHeaderHeight
当我将 WPF DataGrid 的 ColumnHeaderHeight 设置为 Auto (double.NaN) 时，如何获取列标题的实际呈现高度？我似乎无法在 DataGrid 类中找到该属
javascript - 实际 IE6 Png 修复
目前最实用的png修复方法是什么？轻量级，支持背景重复和背景位置。最佳答案 IE7.JS在我看来: IE7.js is a JavaScript library to make Microsoft
Android onBackPressed，如何测试未保存的更改是否*实际*进行了？
我已经进行了长时间的搜索并尝试了常见的嫌疑人，但现在是寻求帮助的时候了。我的 Android Activity 非常愉快地从 SQLite 加载 EditText、Spinner 和 CheckBo
mysql - *实际*精确的 MySQL 全文搜索
因此，我在 MySQL 全文中创建精确搜索时遇到了一些困难。在我的数据库中，我正在尝试查找标题中包含特定关键字的职位。所以我可以尝试 WHERE MATCH(jobTitle) AGAINST (
实际 HTML 元素的 JAVASCRIPT 数组
我正在尝试将 JavaScript 包含到一个表单应用程序中，该应用程序从现场收集施工数据。我已经用谷歌搜索了这个废话，但我无法弄清楚将 html 元素保存在数组中是否合法(或者我的语法是否正确)。
php - 有什么方法可以确定*实际* session 保存路径吗？
我知道有六种方法可以获取 session.save_path 指令的值(phpinfo()、session_save_path()等)，但当值为空字符串时(默认情况下为空字符串)，实际路径可以是多个位
javascript - *实际*使用的是什么版本的 npm 库？
我知道 npm 库在安装时可以在分层树中安装同一库的多个版本，如下所示: a@0.1.0 -> b@1.0 -> c@2.0 -> b@2.0 在上面，版本0.1.0的包a被拉入

首页

博学

6Ren·AI

商城

r - 结合 OTU 和税表并用 OTU id 替换实际序列(Phyloseq/dada2)