gpt4 book ai didi

awk:使用文件过滤另一个文件 (out.tr)

转载 作者:行者123 更新时间:2023-12-03 09:47:15 24 4
gpt4 key购买 nike

awk 帮助,使用一个文件过滤另一个文件
我有一个主文件:

...
17,466971 0,095185 17,562156 id 676
17,466971 0,096694 17,563665 id 677
17,466971 0,09816 17,565131 id 678
17,466971 0,099625 17,566596 id 679
17,466971 0,101091 17,568062 id 680
17,466971 0,016175 17,483146 id 681
17,466971 0,101793 17,568764 id 682
17,466971 0,10253 17,569501 id 683
38,166772 0,08125 38,248022 id 1572
38,166772 0,082545 38,249317 id 1573
38,233772 0,005457 38,239229 id 1574
38,233772 0,082113 38,315885 id 1575
38,299771 0,081412 38,381183 id 1576
38,299771 0,006282 38,306053 id 1577
38,299771 0,083627 38,383398 id 1578
38,299771 0,085093 38,384864 id 1579
38,299771 0,008682 38,308453 id 1580
38,299771 0,085094 38,384865 id 1581
...

我想根据另一个文件,最后一列 (id) 取消/删除一些行:
...
d 17.483146 1 0 udp 181 ------- 1 19.0 2.0 681
d 38.239229 1 0 udp 571 ------- 1 19.0 2.0 1574
d 38.306053 1 0 udp 1000 ------- 1 19.0 2.0 1577
d 38.308453 1 0 udp 1000 ------- 1 19.0 2.0 1580
d 38.372207 1 0 udp 546 ------- 1 19.0 2.0 1582
d 38.441845 1 0 udp 499 ------- 1 19.0 2.0 1585
d 38.505262 1 0 udp 616 ------- 1 19.0 2.0 1586
d 38.572324 1 0 udp 695 ------- 1 19.0 2.0 1588
d 38.639246 1 0 udp 597 ------- 1 19.0 2.0 1590
d 38.639758 1 0 udp 640 ------- 1 19.0 2.0 1591
...

对于上面的示例,结果将是:
17,466971 0,095185 17,562156 id 676
17,466971 0,096694 17,563665 id 677
17,466971 0,09816 17,565131 id 678
17,466971 0,099625 17,566596 id 679
17,466971 0,016175 17,483146 id 680
17,466971 0,101793 17,568764 id 682
17,466971 0,10253 17,569501 id 683
38,166772 0,08125 38,248022 id 1572
38,166772 0,082545 38,249317 id 1573
38,233772 0,082113 38,315885 id 1575
38,299771 0,081412 38,381183 id 1576
38,299771 0,083627 38,383398 id 1578
38,299771 0,085093 38,384864 id 1579
38,299771 0,085094 38,384865 id 1581

行删除是:
17,466971 0,101091 17,568062 id 681
38,233772 0,005457 38,239229 id 1574
38,299771 0,006282 38,306053 id 1577
38,299771 0,008682 38,308453 id 1580

是否有使用 awk 的命令来自动执行此操作?

先感谢您

最佳答案

这是使用 awk 的一种方法:

awk 'FNR==NR { a[$NF]; next } !($NF in a)' other main

结果:
17,466971 0,095185 17,562156 id 676
17,466971 0,096694 17,563665 id 677
17,466971 0,09816 17,565131 id 678
17,466971 0,099625 17,566596 id 679
17,466971 0,101091 17,568062 id 680
17,466971 0,101793 17,568764 id 682
17,466971 0,10253 17,569501 id 683
38,166772 0,08125 38,248022 id 1572
38,166772 0,082545 38,249317 id 1573
38,233772 0,082113 38,315885 id 1575
38,299771 0,081412 38,381183 id 1576
38,299771 0,083627 38,383398 id 1578
38,299771 0,085093 38,384864 id 1579
38,299771 0,085094 38,384865 id 1581

删除感叹号以显示“已删除”行:
awk 'FNR==NR { a[$NF]; next } $NF in a' other main

结果:
17,466971 0,016175 17,483146 id 681
38,233772 0,005457 38,239229 id 1574
38,299771 0,006282 38,306053 id 1577
38,299771 0,008682 38,308453 id 1580

或者,如果您想要两个文件,一个包含值“present”,另一个包含值“deleted”,请尝试:
awk 'FNR==NR { a[$NF]; next } { print > ($NF in a ? "deleted" : "present") }' other main

说明1:
FNR==NR { ... }是一个常用的构造,它仅对参数列表中的第一个文件返回 true。在这种情况下, awk将首先读取文件“其他”。在处理此文件时,最后一列 ( $NF ) 中的值被添加到一个数组中(我们称之为 a )。 next然后跳过处理我们的其余代码。读取第一个文件后, FNR将不再等于 NR ,因此 awk将被“允许”跳过 FNR--NR { ... }阻止并开始处理应用于参数列表中的第二个文件 'main' 的其余代码。例如, !($NF in a) , 如果 $NF 将不打印该行不在数组中。

说明2:

关于哪一列,您可能会发现这很有帮助:
$1         # the first column
$2 # the second column
$3 # the third column

$NF # the last column
$(NF-1) # the second last column
$(NF-2) # the third last column

关于awk:使用文件过滤另一个文件 (out.tr),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14062402/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com