linux - 合并 awk 脚本的问题-6ren

linux - 合并 awk 脚本的问题

转载作者：IT王子更新时间：2023-10-29 01:26:20

26

4

我正在尝试使用 awk 来解析一个制表符分隔的表——第一列中有几个重复的条目，我需要删除表中其他 4 列的总和较小的重复行。我可以轻松删除第一行或第二行，并对列求和，但我无法将两者结合起来。出于我的目的，重复项永远不会超过 2 个。

示例文件:http://pastebin.com/u2GBnm2D

在这种情况下，期望的输出是删除行:

lmo0330 1       1       0       1
lmo0506 7       21      2       10

并在列中保留其他两行具有相同基因 ID 的内容。最终解析的文件如下所示:http://pastebin.com/WgDkm5ui

这是我尝试过的方法(这没有做任何事情。但是第一部分删除了第二个重复项，第二部分对计数求和):

awk 'BEGIN {!a[$1]++} {for(i=1;i<=NF;i++) t+=$i; print t; t=0}'

我尝试在这个问题的最佳答案中修改脚本的第二部分:Removing lines containing a unique first field with awk?

awk 'FNR==NR{a[$1]++;next}(a[$1] > 1)' ./infile ./infile

但不幸的是，我并不真正了解发生了什么足以使其正常工作。谁能帮我吗？我想我需要将 a[$1] > 1 部分替换为 [remove (first duplicate count or 2nd duplicate count depending on which is larger].

编辑:如果重要的话，我也在使用 GNU Awk 3.1.7。

最佳答案

您可以使用此 awk 命令:

awk 'NR == 1 {
   print;
   next
} {
   s = $2+$3+$4+$5
} s >= sum[$1] {
   sum[$1] = s;
   if (!($1 in rows))
      a[++n] = $1;
   rows[$1] = $0
} END {
   for(i=1; i<=n; i++)
      print rows[a[i]]
}' file | column -t

输出:

gene     SRR034450.out.rpkm_0  SRR034451.out.rpkm_0  SRR034452.out.rpkm_0  SRR034453.out.rpkm_0
lmo0001  160                   323                   533                   293
lmo0002  135                   317                   504                   306
lmo0003  1                     4                     5                     3
lmo0004  35                    59                    58                    48
lmo0005  113                   218                   257                   187
lmo0006  279                   519                   653                   539
lmo0007  563                   1053                  1165                  1069
lmo0008  34                    84                    203                   107
lmo0009  13                    45                    90                    49
lmo0010  57                    210                   237                   169
lmo0011  65                    224                   247                   179
lmo0012  65                    226                   250                   215
lmo0013  342                   500                   738                   682
lmo0014  662                   1032                  1283                  1311
lmo0015  321                   413                   631                   637
lmo0016  175                   253                   273                   325
lmo0017  3                     6                     6                     6
lmo0018  33                    38                    46                    45
lmo0019  13                    1                     39                    1
lmo0020  3                     12                    28                    15
lmo0021  3                     4                     14                    12
lmo0022  2                     3                     5                     1
lmo0023  2                     0                     3                     2
lmo0024  1                     0                     2                     6
lmo0330  1                     1                     1                     3
lmo0506  151                   232                   60                    204

关于linux - 合并 awk 脚本的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31365021/

26

4

0

文章推荐： linux - tail 如何跳过最后一行

文章推荐： go - 客户端的 gRPC 上下文

文章推荐： linux - 在另一个比较中使用 bash 比较的结果

awk - 从 awk 文件执行另一个 awk
是否可以从 awk 文件执行另一个 awk 文件？使用 awk 文件我需要执行当前文件夹中的所有 awk 文件。是否可以在 awk 中进行此类操作？最佳答案是的你可以。您需要使用 system()
awk - 为什么 awk "not in"数组像 awk "in"数组一样工作？
这是一个 awk 脚本，它尝试根据第一列设置两个文件的差异: BEGIN{ OFS=FS="\t" file = ARGV[1] while (getline < file)
awk - awk 中的并行处理？
awk 逐行处理文件。假设每一行操作不依赖于其他行，有没有办法让 awk 一次并行处理多行？是否有任何其他文本处理工具可以自动利用并行性并更快地处理数据？最佳答案唯一试图提供 awk 并行实现的
awk - awk 中的两个文件处理
我有文件: 结果.txt Apple fruits 10 20 30 Car vehicle 40 50 60 Book study 70 80 90 假设这里第 2 列是特征，第 3 列是最小值
awk - awk 中的小窍门
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
awk - awk 中的浮点计算
我对 awk 的行为感到惊讶表演时浮点数计算。它导致我对表格数据进行错误计算。 $ awk 'BEGIN {print 2.3/0.1}' 23 0.1}' )。那么我应该如何执行大于 (
awk - awk 输出中的额外空间
为什么我在下面的例子中得到分隔符前后的空格？ awk -F'^' '{print $1,":",$2}' SERVER_2012-02-29-12-15-00 3969 : 1272 3969 :
awk - Awk:如何每四行替换一个字符串？
我有一个文件，其中每四行是这样的： HISEQ15:454:D27KKACXX:6:2316:16241:100283 1:N:0:GTTTCG （对于那些感兴趣的人，此文件包含DNA序列）我需
awk - 合并系列并识别它的结尾 - AWK
你能帮我按 $2 列中的坐标合并行吗？有一系列坐标以一个为单位增长。我想输出 f.e. :第 1 行合并到第 4 行 9079811-9079814，之后没有系列，因此将其合并到另一行等。对于输入中的
awk - awk 是二维数组还是类似于存储值的东西？
大家好，我是 awk 的新手，我可以问一下我有这样的输入文件吗: # ABC DEFG value1 GH value2 GH value3 GH # BCF SQW value4 GH value5
awk - awk 中括号的位置
大家好，我想问一下，我对awk中的括号{}感到非常困惑，就像我写了一段代码 { FNR == 3 { print $1 " age is " $2 } } 但它在外括号上给了我错误但没有在打印语
awk - awk 中的多行注释
我想知道如何在 awk 中使用多行注释。到目前为止，我一直在使用 # 来评论一行。有人可以就此指导我。谢谢你。最佳答案 AWK 中没有多行注释，但如果需要，您可以伪造它。这是一种至少适用于 GNU
awk - AWK AND运算子
关于AND逻辑运算符的一个基本问题。我试图根据第1列和第2列的值提取数据文件niveles.csv中的某些字段。我想写一个awk语句，说“当field1 = date和field2 = area然后打
awk - AWK 中的忽略大小写
以下命令按预期工作。 # some command | awk '/(\|\|\)/,/;/' create table todel1 (id int) max_rows=2 /*!*/; alter
awk - awk 中连接字符串
我有一个日志文件，需要在服务器上“重播”。它包含这样的条目: Request: query: EXEC prc_insert_customer @param0: 11
awk - awk 中的制表符分隔值
如何从制表符分隔的字符串中选择第一列？ # echo "LOAD_SETTLED LOAD_INIT 2011-01-13 03:50:01" | awk -F'\t' '{prin
awk - awk 如何将文件名作为输出中的一列？
我正在尝试在目录中的多个文件的内容中执行一些 grep 并将我的 grep 匹配附加到单个文件中，在我的输出中我还想要一个包含文件名的列，以了解哪些文件条目已被拾取。我试图使用 awk 来实现相同的目
awk - awk 中的绝对值不起作用？
我想选择文件中第9列的绝对值小于500的行。列有时为正，有时为负。 awk -F'\t' '{ if ($9 output.bam 到目前为止这不起作用..互联网上的一轮告诉我，要使用绝对值，我们应
awk - awk 的第一个和第二个输入文件是否可能有不同的行为？
例如，假设我运行以下命令: gawk -f AppendMapping.awk Reference.tsv TrueInput.tsv 假设文件名会改变。在遍历第一个文件时，我想创建一个映射。 map
awk - 尝试将转义字符作为变量传递给 awk
我正在使用这个命令； awk -v regex1='new[[:blank:]]+File\(' 'BEGIN{print "Regex1 =", regex1}' 这警告我； awk: warnin

首页

博学

6Ren·AI

商城

linux - 合并 awk 脚本的问题