- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有这个 gff 文件,它似乎不符合我期望的格式。问题出在最后一列(尽管如果我按制表符拆分,某些行似乎确实有更多制表符)。这是我所拥有的:
scaffold10x_1000_pilon AUGUSTUS gene 12711 22079 0.67 - . g1
scaffold10x_1000_pilon AUGUSTUS transcript 12711 22079 0.47 - . g1.t1
scaffold10x_1000_pilon AUGUSTUS stop_codon 12711 12713 . - 0 transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS intron 13044 13486 0.89 - . transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS intron 13936 21904 0.5 - . transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 12711 13043 0.99 - 0 transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 13487 13935 0.64 - 2 transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 21905 22079 0.67 - 0 transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS start_codon 22077 22079 . - 0 transcript_id "g1.t1"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS transcript 12711 14150 0.2 - . g1.t2
scaffold10x_1000_pilon AUGUSTUS stop_codon 12711 12713 . - 0 transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS intron 13044 13486 0.91 - . transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS intron 13936 14128 0.2 - . transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 12711 13043 0.96 - 0 transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 13487 13935 0.45 - 2 transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS CDS 14129 14150 0.21 - 0 transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS start_codon 14148 14150 . - 0 transcript_id "g1.t2"; gene_id "g1";
scaffold10x_1000_pilon AUGUSTUS gene 41722 42102 0.32 + . g2
scaffold10x_1000_pilon AUGUSTUS transcript 41722 42102 0.32 + . g2.t1
scaffold10x_1000_pilon AUGUSTUS start_codon 41722 41724 . + 0 transcript_id "g2.t1"; gene_id "g2";
scaffold10x_1000_pilon AUGUSTUS CDS 41722 42102 0.32 + 0 transcript_id "g2.t1"; gene_id "g2";
scaffold10x_1000_pilon AUGUSTUS stop_codon 42100 42102 . + 0 transcript_id "g2.t1"; gene_id "g2";
scaffold10x_1000_pilon AUGUSTUS gene 106074 106640 1 + . g3
scaffold10x_1000_pilon AUGUSTUS transcript 106074 106640 1 + . g3.t1
scaffold10x_1000_pilon AUGUSTUS start_codon 106074 106076 . + 0 transcript_id "g3.t1"; gene_id "g3";
scaffold10x_1000_pilon AUGUSTUS CDS 106074 106640 1 + 0 transcript_id "g3.t1"; gene_id "g3";
scaffold10x_1000_pilon AUGUSTUS stop_codon 106638 106640 . + 0 transcript_id "g3.t1"; gene_id "g3";
这是我想要的:
scaffold10x_1000_pilon AUGUSTUS gene 12711 22079 0.67 - . ID=g1
scaffold10x_1000_pilon AUGUSTUS transcript 12711 22079 0.47 - . ID=g1.t1;Parent=g1
scaffold10x_1000_pilon AUGUSTUS stop_codon 12711 12713 . - 0 Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS intron 13044 13486 0.89 - . Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS intron 13936 21904 0.5 - . Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS CDS 12711 13043 0.99 - 0 ID=g1.t1.cds;Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS CDS 13487 13935 0.64 - 2 ID=g1.t1.cds;Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS CDS 21905 22079 0.67 - 0 ID=g1.t1.cds;Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS start_codon 22077 22079 . - 0 Parent=g1.t1
scaffold10x_1000_pilon AUGUSTUS transcript 12711 14150 0.2 - . ID=g1.t2;Parent=g1
scaffold10x_1000_pilon AUGUSTUS stop_codon 12711 12713 . - 0 Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS intron 13044 13486 0.91 - . Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS intron 13936 14128 0.2 - . Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS CDS 12711 13043 0.96 - 0 ID=g1.t2.cds;Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS CDS 13487 13935 0.45 - 2 ID=g1.t2.cds;Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS CDS 14129 14150 0.21 - 0 ID=g1.t2.cds;Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS start_codon 14148 14150 . - 0 Parent=g1.t2
scaffold10x_1000_pilon AUGUSTUS gene 41722 42102 0.32 + . ID=g2
scaffold10x_1000_pilon AUGUSTUS transcript 41722 42102 0.32 + . ID=g2.t1;Parent=g2
scaffold10x_1000_pilon AUGUSTUS start_codon 41722 41724 . + 0 Parent=g2.t1
scaffold10x_1000_pilon AUGUSTUS CDS 41722 42102 0.32 + 0 ID=g2.t1.cds;Parent=g6.t1
scaffold10x_1000_pilon AUGUSTUS stop_codon 42100 42102 . + 0 Parent=g2.t1
scaffold10x_1000_pilon AUGUSTUS gene 106074 106640 1 + . ID=g3
scaffold10x_1000_pilon AUGUSTUS transcript 106074 106640 1 + . ID=g3.t1;Parent=g3
scaffold10x_1000_pilon AUGUSTUS start_codon 106074 106076 . + 0 Parent=g3.t1
scaffold10x_1000_pilon AUGUSTUS CDS 106074 106640 1 + 0 ID=g3.t1.cds;Parent=g3.t1
scaffold10x_1000_pilon AUGUSTUS stop_codon 106638 106640 . + 0 Parent=g3.t1
我曾尝试在 linux 中使用 grep
和 sed
命令,似乎可以完成它。然后解析为 python。
说到 python,我尝试在选项卡中读取文件,然后使用基于列的索引,处理第 3 列和第 9 列,我可以将其索引为数据 [2] 和数据 [8]。
这是我写的,我知道它可能不会那么难,只是我的想法,我对 python 也有点陌生。
data = open("my my_bad_gff", 'r')
new_file = ''
for line in data:
columns = line.rstrip("\n").split("\t")
scaffold = columns[0]
source = columns[1]
feature = columns[2]
start = columns[3]
end = columns[4]
score = columns[5]
strand = columns[6]
frame = columns[7]
attribute = columns[8]
if feature == 'gene': #Im trying to take the row called gene, and assign its content as x, which is g1 in this case
a = str(columns[8])
b = 'ID='+ a #which I think should give me ID=g1
if feature == 'transcript':
columns[8] = a + '.t1' + ';Parent=' + a # hopint it gives me ID=g1.t1;Parent=g1, but how can i make sure '.t1' is not fixes, since transcript number can ncrease for each gene
if feature == 'intron' and 'start_codon' and 'stop_codon':
columns [8] = 'Parent=' + a + '.t1'# should give me Parent=g1.t1
d = columns [8]
if feature == 'CDS':
columns[8] = a + '.t1' + 'cds;' + d #hoping this gives me ID=g1.t1.cds;Parent=g1.t1
new_file.append(data)
是否有一个命令行可以为我做这个,或者我必须只使用 python?谢谢
最佳答案
也许这可以让您开始使用 awk
$ awk -F'\t' '{match($9,"(g[0-9])",m)}
$3=="gene"{$9="ID="m[1]}
# add other conditions
# using the same template
# ...
1' file
请注意,这里您实际上指的是OR,而不是AND feature == 'intron' and 'start_codon' and 'stop_codon'
match($9,"(g[0-9])",m)
是提取g1
,g2
等值从最后一列到 m[1]
,其余部分应该易于阅读。
关于linux - 如何使用 sed 或 python 重写文件的最后一列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49382718/
我需要一些有关 Sed 的帮助。我在 Windows 和 Mac OSX 上使用它。我需要 Sed 添加一个 每 4 行,在第一个 之后找到,并在 上停止这样做 我就是找不到办法做到这一点。每
我是一个管理很多网站的轮换团队的一员,我们继承了一个网站的一些特别糟糕的代码,我们正在彻底重新设计该网站。非常可怕的是,开发服务器上有一些链接将您带到实时服务器和旧域以及许多其他可怕的事情。 我一直在
我正在尝试在脚本中运行以下表达式以查找设备并在html文件中更改与该设备关联的字段之一。 sed -e "s/$OLDTEST/$TESTING/" -e "s/$CURRENTVALU/$NEWST
我正在尝试使用 sed 删除所有出现的 #ifdef _WIN32 #endif #ifdef 和 #endif 之间存在的所有内容都是空行。我使用 sed 的经验有限,我已经阅读了一些关于多行功能的
以下命令是什么意思: sed -e '/SUBCKT\ REDBK128S4_LC/,/ENDS/ d' $1 什么,代表? 最佳答案 如果指定两个地址,则指定执行命令的行范围。在您的 sed表达
我需要使用sed注释匹配行和其后的4行的帮助。 在文本文件中。 我的文本文件是这样的: [myprocess-a] property1=1 property2=2 property3=3 proper
我想要一个sed命令来完成以下任务: $ sed s'/:/ /g' sed s'/=/ /g' 也就是说,我想写 sed s'// /g' 并用空格替换=和:。 最佳答案 sed s'/[:=]/
我想在大文件中每隔30行插入一个字符串。我正在使用mini-sed,它不支持〜(波浪号)范围运算符。我正在寻找仅sed的解决方案。 最佳答案 该线程是如何使事情过于复杂的另一个示例。应该这样做: se
有人可以帮我吗? grep " 287 " file.txt | grep "HI" | sed -i 's/HIS/HID/g' sed: no input files 也尝试过 xargs gre
这个问题已经有答案了: How can I replace each newline (\n) with a space using sed? (43 个回答) 已关闭2 年前。 如何使用 sed 命
我们需要屏蔽信用卡号。屏蔽除最后 4 位数字以外的所有数字。我正在尝试使用 SED。由于信用卡号长度从 12 位到 19 位不等,我正在尝试编写正则表达式。以下代码将收到字符串。如果它包含形式为“CA
例如: sed 's@/lib\(64\)\?\(32\)\?/ld@/tools&@g' abc.txt 's@' 、 '(' 、 '\?' 、'&' 和 '@' 等含义是什么? 如何找到最合适
我们有一个进程可以使用包含 sed 的文件更改管道输入的命令。 我需要用变量值替换输入中的占位符,例如在一个 -e我可以运行的命令类型; $ echo "Today is XX" | sed -e "
这个问题在这里已经有了答案: Using different delimiters in sed commands and range addresses (3 个答案) 关闭1 年前。 我想问 2
是的,我搜索了该网站,但我认为我没有看到任何东西可以专门解决我无法克服的非常(我想很简单)的问题。 我正在上 Linux 类(class),有人问我这个问题: Use the sed command
我有一个看起来像这样的文件路径列表 abc/def/ghi/jl/r1/r2 abc/def/ghi/jl/r9/r11 abc/nyc/ghi/jl/r3/r4/r5 abc/nyc/ghi/jl/
我在这个文件中有这个文本: test.php $databases = array ( 'default' => array ( 'default' => array (
让我们考虑一个包含以下语句的 SQL 文件作为输入(即 myTable.sql): EXECUTE IMMEDIATE 'CREATE OR REPLACE PUBLIC SYNONYM ' || m
好的,谷歌搜索几分钟后,这似乎是在每行输出前加上 sed 前缀的常规方法 但是我得到一个我不明白的错误。 这是什么意思,我该如何解决? $ sed 's/^/#/' test.txt sed: -e
我有以下文件列表: r1 r2 10 r11 r99 我正在尝试替换 ls 输出中文件名中 r 之后的所有数字 我要找的结果: rA rA rA rA rA 使用下面的 sed 命令我可以匹配
我是一名优秀的程序员,十分优秀!