unix - 比较两行，如果模式在任何顺序行的两列之间重复，则只打印一行-6ren

unix - 比较两行，如果模式在任何顺序行的两列之间重复，则只打印一行

转载作者：行者123 更新时间：2023-12-04 14:04:00

25

4

使用 awk 这应该相当简单(希望如此)，但我找不到解决方案。我有一个文件，如果第 1 列和第 2 列的字符串组合在任何其他行中重复，我想将每一行相互比较我只想打印第一个匹配项:

cat file.csv
alpha_3,alpha_47,100,60,0,0,1,60,1,60,8.21E-29,111
alpha_47,alpha_3,100,60,0,0,1,60,1,60,8.21E-29,111
beta_86,beta_12,100,61,0,0,1,61,1,61,2.33E-29,113
beta_86,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113
beta_12,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113
beta_14,beta_12,100,61,0,0,1,61,1,61,2.33E-29,113


#command
This seems to be working but I have to extract the first two columns,
and I can't print the first instance of the match 

awk -F "," '{print $1 , $2}' file.csv | awk -F' ' '!seen[$2 FS $1]; {seen[$0]++}' 
alpha_3 alpha_47
beta_86 beta_12
beta_86 beta_14
beta_12 beta_14

But it doesn't print the whole line and if I try without selecting the first two columns it doesn't work.

#desired output
alpha_3,alpha_47,100,60,0,0,1,60,1,60,8.21E-29,111
beta_86,beta_12,100,61,0,0,1,61,1,61,2.33E-29,113
beta_86,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113
beta_12,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113

我正在学习 awk(仍然)所以如果有人可以提供解决方案并解释他们的代码会更好!

最佳答案

当想要比较复合值而不考虑顺序时，一般的解决方案是对用于创建数组索引的键进行排序。只给定 2 个键，减少到只比较它们并始终以相同的顺序连接它们(例如，最大的优先)，而不管它们的输入顺序:

$ awk -F, '!seen[$1>$2 ? $1 FS $2 : $2 FS $1]++' file.csv
alpha_3,alpha_47,100,60,0,0,1,60,1,60,8.21E-29,111
beta_86,beta_12,100,61,0,0,1,61,1,61,2.33E-29,113
beta_86,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113
beta_12,beta_14,100,61,0,0,1,61,1,61,2.33E-29,113

关于unix - 比较两行，如果模式在任何顺序行的两列之间重复，则只打印一行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69093361/

25

4

0

文章推荐： arrays - 显式定义变量与访问数组

文章推荐： sql - perl DBI 占位符更新 stmt 问题

文章推荐： python - 使用箭袋绘制矢量场

文章推荐： python-3.x - 向函数添加可选参数

unix - Unix 内核如何转换文件偏移量？
正如标题所暗示的那样，我无法弄清楚 Unix 内核如何将逻辑文件偏移量转换为逻辑块号，然后从 i-node 中检索它。作为引用，我要求对 Maurice J. Bach 在“UNIX 操作系统的设计
unix - Unix 内幕的好书
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
unix - UNIX 时间是否通用
我在互联网上做了一些研究，但仍然很困惑。 UNIX 时间是像 GMT/UTC 那样的通用时间还是像本地时间一样因地而异？我知道 UNIX 时间是从 1970 年 1 月 1 日格林威治标准时间 00
unix - Unix 管理员应该具备哪些编程能力？
您如何评估 Unix 系统管理员。 Unix 管理员应该具备哪些编程能力？最佳答案我用于快速过滤器的一些: 什么是 fork 炸弹，它是好是坏？给我一个单行命令，计算日志文件中有多少行从昨天的日
unix - 字典文本文件 UNIX
谁能告诉我字典文本文件在 UNIX 系统上的位置？或者我在哪里可以获得一个好的字典文本文件？我目前一直在使用来自 SUN 的文本文件，但它包含不带句点的缩写(否则我可以删除它们)。有人能指出我正确的方
unix - unix 机器上的缓存内存不断增长
在我的 Ubuntu 12 vps 上，我正在运行一个完整的比特币节点。当我第一次启动它时，它使用了大约 700mb 的内存。如果我 24 小时后回来 (free -m) 将如下所示: total
unix - unix 程序中的配置位置
我想编写一个 unix/linux 程序，它将使用一个配置文件。我的问题是，我应该把文件的位置放在哪里？我可以将位置(如 /etc )“硬编码”到程序本身中。但是，我希望它，如果没有权限的用户可
unix - UNIX:如何从2种输入中获取信息？
在UNIX脚本编程中，cat是可以将2个文件组合在一起的命令: cat file1 file2 > file3 通过合并前两个生成第三个。另外，cat可以与管道一起使用: cat file1 | t
unix - 如何将正在运行的进程移至后台 (UNIX)
我有一个通过 ssh 连接到外部机器的终端，并且有一个进程在其中运行。是否可以将执行移到后台，以便我可以关闭 ssh 连接而无需终止它？如果是这样怎么办？最佳答案按 control + Z，这将
unix - UNIX 共享库可以合并为一个库吗？
我正在试验我自己的 BSD 或 Linux 发行版。我想以对最终用户有意义的方式组织系统文件。我希望他们能够访问系统，而不会出现 *nixes 留下的所有文件困惑。有没有办法在不丢失动态链接的情况下
unix - Unix 中的信号是什么？
这条评论让我感到困惑:“kill -l 通常会列出所有信号”。我认为信号意味着量化的能量。 [已添加] 请澄清 Unix 中的(计算)信号和物理信号。它们是完全不同的概念吗？ [已添加] 范式之间是否
unix - unix 进程正在使用的文件
fuser 命令让我知道哪些进程正在使用文件或目录。我正在寻找相反的命令:让我知道进程正在使用哪些文件。更新忘了说它是针对 Solaris 系统的。最佳答案 lsof -p 来自 here
unix - 将单词拆分为字符 - Unix
如果我有一个叫做“orange”的词，我如何将它拆分成单独的字符。我的输出应该是: o r a n g e 最佳答案 echo orange | fold -w 1 输出 o r a n g e 关
unix - Unix 中的作业和进程有什么区别？
和有什么区别工作和一个流程在 Unix 中？你能举个例子吗？最佳答案作业是由 shell 启动的进程。 shell 在作业表中跟踪这些。作业命令显示事件后台进程的列表。他们得到一个 jobspe
unix - unix 如何处理带空格和参数的完整路径名？
unix 如何处理带空格和参数的完整路径名？在 Windows 中，我们引用路径并在其后添加命令行参数，在 unix 中如何？ "c:\foo folder with space\foo.exe"
unix - Unix:通过保留第一个文件的标题合并具有相同标题的多个CSV文件
我必须合并具有相同标题的多个CSV文件。我必须保留第一个文件的 header ，并删除所有其他文件的 header ，然后合并它们并创建一个主文件。文件1: Id,city,name ,locat
unix - unix 中两个文件的左外连接
我需要在两个字段上加入两个文件。但是，即使连接失败，我也应该检索文件 1 中的所有值，就像左外连接一样。文件 1: 01|a|jack|d 02|b|ron|c 03|d|tom|e 文件2: 01
unix - UNIX 上的进程大小
在 Solaris, HP-UX 上获取进程大小的正确方法是什么？和 AIX ?我们应该使用 top或 ps -o vsz或者是其他东西？最佳答案 vsize的确切定义, rss , rprvt ,
unix - UNIX 目录何时更改其时间戳
我在文件上使用了“touch”，更新了文件的时间戳，但父目录的时间戳没有改变。但是，(如预期)当我在父目录中创建新文件时，该目录的时间戳确实发生了变化。类 UNIX 操作系统(特别是 AIX)使用什
unix - UNIX 中文件追加是原子的吗？
一般来说，当我们从多个进程向 UNIX 中的文件追加内容时，我们可以认为什么是理所当然的？是否有可能丢失数据(一个进程覆盖另一个进程的更改)？数据有可能被破坏吗？ (例如，每个进程都将每个追加一行追加

首页

博学

6Ren·AI

商城

unix - 比较两行，如果模式在任何顺序行的两列之间重复，则只打印一行