- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我希望将 R 中记录格式的 txt 文件作为数据框读取,其中每一行对应一条记录。记录长短不一。知道我该怎么做吗?
这是第一条记录:
# C. elegans orthologs
# WormBase version: WS241
# Generated:
# File is in record format with records separated by "=\n"
# Sample Record
# WBGeneID \t PublicName \n
# Species \t Ortholog \t MethodsUsedToAssignOrtholog \n
# BEGIN CONTENTS
=
WBGene00000001 aap-1
Ascaris suum GS_11030 WormBase-Compara
Brugia malayi WBGene00227541 WormBase-Compara
Bursephelenchus xylophilus BUX.s00055.227 WormBase-Compara
Caenorhabditis angaria Cang_2012_03_13_00205.g6964.t3 WormBase-Compara
Caenorhabditis brenneri WBGene00194098 TreeFam; WormBase-Compara
Caenorhabditis briggsae WBGene00032086 Hillier-set; OrthoMCL; Inparanoid_7; OMA; WormBase-Compara
Caenorhabditis japonica WBGene00207613 WormBase-Compara
Caenorhabditis remanei WBGene00069407 Inparanoid_7; OMA; TreeFam; WormBase-Compara
Caenorhabditis sp.11 Csp11.Scaffold542.g3421.t1 WormBase-Compara
Caenorhabditis sp.5 Csp5_scaffold_00676.g14307.t1 WormBase-Compara
Danio rerio ENSEMBL:ENSDARP00000056212 TreeFam
Dirofilaria immitis nDi.2.2.2.t01810 WormBase-Compara
Drosophila melanogaster ENSEMBL:FBpp0303635 EnsEMBL-Compara; TreeFam
Haemonchus contortus HCOI02027400.t1 WormBase-Compara
Heterorhabditis bacteriophora Hba_15363 WormBase-Compara
Homo sapiens ENSEMBL:ENSP00000361075 Inparanoid_7; TreeFam
Loa loa EFO26046.2 WormBase-Compara
Meloidogyne hapla MhA1_Contig1573.frz3.gene15 WormBase-Compara
Mus musculus ENSEMBL:ENSMUSP00000034296 EnsEMBL-Compara; TreeFam
Onchocerca volvulus WBGene00241206 WormBase-Compara
Panagrellus redivivus Pan_g2405.t1 WormBase-Compara
Pristionchus pacificus WBGene00117228 Inparanoid_7; OMA; WormBase-Compara
Trichinella spiralis EFV56516 WormBase-Compara
=
WBGene00000002 aat-1
Ascaris suum GS_20881 WormBase-Compara
编辑:我真正需要的是每条记录中与“智人”对应的条目。所以,理想情况下,我在 R 中的 df 是:
WBGene00000001 aap-1 Homo sapiens ENSEMBL:ENSP00000361075 Inparanoid_7; TreeFam
WBGene00000002 aat-1 etc etc
最佳答案
我建议使用 readLines
将数据读入 R。由于您在注释中给了我们文件路径,因此请先使用 file
打开与文件的连接,然后是 readLines
。在我们读取数据并将数据存储到 R 之后,关闭
连接始终是一个好习惯。
> con <- file("../Input/c_elegans.PRJNA13758.current.best_blastp_hits.txt",
open = "r")
> XX <- readLines(con)
> close(con)
> record <- grep("^WBGene", XX, value = TRUE)
> sapien <- grep("Homo sapiens", XX, value = TRUE, fixed = TRUE)
> gsub("\\s+", " ", paste0(record[1], sapien))
## [1] "WBGene00000001 aap-1 Homo sapiens ENSEMBL:ENSP00000361075 Inparanoid_7; TreeFam"
样本数据的整个record
向量是
> record
## [1] "WBGene00000001 aap-1 " "WBGene00000002 aat-1 "
所以当我们找到记录 2 的智人时,它将被粘贴到记录 2,智人 3 到记录 3,依此类推
paste0(record, sapien)
值得注意OP的数据框最终是用
创建的do.call(rbind, strsplit(paste0(record, sapien), split = "\\s+"))
关于r - 在R中以记录格式打开txt文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23415618/
我知道我要求太多,但也许你也可以帮助解决这个问题。 a.txt 包含单词,b.txt 包含字符串。 我想知道 b.txt 中有多少个字符串以 a.txt 中的单词结尾 例子:一个.txt apple
这个问题在这里已经有了答案: erge text files ordered by numerical filenames in Bash (3 个答案) 关闭 4 年前。 我有一个文件夹,其中包含
我在一个目录中有几个平面文件 (.txt)。所有这些文件的格式都是 *.txt.txt,所以我想将其重命名为 *.txt?有什么简单的方法可以一起重命名? 当我尝试 ren *.txt.txt *.t
这个问题在这里已经有了答案: How can I use a file in a command and redirect output to the same file without trunc
您是否有任何理由应该或不应该允许访问 javascript 或 css 文件?特别是常见的文件,如 jquery。 最佳答案 人们普遍认为,搜索引擎每天为给定站点分配一定数量的带宽或 URL。因此,一
Closed. This question is off-topic。它当前不接受答案。 想要改善这个问题吗? Update the question,所以它是用于堆栈溢出的on-topic。 已关闭
这是相同的代码。我面临的问题是,我无法在任何文件上写入任何内容。请帮忙解决这个问题 #include #include int main() { FILE *fe; FILE *fo;
我想要特定于域的 robots.txt,到目前为止这有效: RewriteRule ^robots\.txt$ robots/%{HTTP_HOST}.txt [L] 但我希望有一个后备方案,因此如果
我正在调试一些构建成功运行的 SQL 命令的代码。 然而,在查询结束时,查询结果似乎被写入了一个文本文件。 完整的查询如下 echo SELECT DATE,DATETABLE,DATE,APPDAT
这个问题已经有答案了: difference between grep Vs cat and grep (5 个回答) 已关闭 8 年前。 我看到一个例子,其中有人这样做: cat source.tx
我想将表中的数据从以 csv 格式存储的文本文件插入到 sql server 表中。为此,我正在使用批量插入语句。现在我需要在“From”子句中指定文件名。我不想在那里使用网络位置或本地位置。我想将我
假设我有一个测试文件夹 (test.domain.com) 并且我不希望搜索引擎在其中抓取,我是否需要在测试文件夹中有一个 robots.txt 或者我可以只放置一个 robots.txt在根目录中,
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
这个问题在这里已经有了答案: order of directives in robots.txt, do they overwrite each other or complement each ot
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
已关闭。这个问题是 not about programming or software development 。目前不接受答案。 这个问题似乎不是关于 a specific programming
在过去的几年中,当我引用“名字”字段的文本框控件时,我一直使用 FirstNameTxt 命名约定。但是,我注意到大多数其他开发人员倾向于使用命名约定 txtFirstName 哪个是最好的约定?为什
我只想允许目录 /minsc 中的一个文件,但我想禁止该目录的其余部分。 现在 robots.txt 中是这样的: User-agent: * Crawl-delay: 10 # Directorie
我正在编写一个将 youtube.com 映射到另一个域的代理服务器(因此用户可以轻松地从德国等国家/地区访问 youtube,而无需审查搜索结果和视频)。 不幸的是,我的 robots.txt 中存
我没有编程技能,但有一项非常具体的任务:我必须将一个庞大的文本文件拆分成多个,并在特定的文本标记 (@) 处拆分它们。我决定尝试使用 Powershell 脚本来完成此任务。 到目前为止,这就是我想出
我是一名优秀的程序员,十分优秀!