gpt4 book ai didi

python - 比较两个 CSV 文件的列并删除差异

转载 作者:太空宇宙 更新时间:2023-11-04 05:18:50 24 4
gpt4 key购买 nike

我想比较两个具有不同数量实体的巨大 CSV 文件。只有一列包含相同的值,就像它们也存在于同一列的另一个文件中一样,该文件要大得多。

所以我想保留其中一个文件中的行,其中第二个文件中也存在具有相同值的行。

示例:

File a
value1,value2,value3,...
value4,value5,value6,...
value7,value8,value9,...

File b:
value10,value2,value11,...
value12,value13,value14,...

最终文件 b(或完整的新文件)应如下所示:

value10,value2,value11,...

我不认为这有多难,但目前我不知道如何实现这一目标。我如何使用 Linux 工具或 bash/python 脚本到达那里?

感谢您的任何提示!

最佳答案

在 awk 中:

$ awk -F, '
NR==FNR { # hash elements in the first file to a
for(i=1;i<=NF;i++)
a[$i]
next
}
{ # second file
for(i=1;i<=NF;i++) # go thru all elements
if($i in a) { # if match
print # output
next # and skip to next record
}
}
' file1 file2
value10,value2,value11

这个对内存中的第一个文件进行哈希处理。如果巨大您的意思是超出您的内存可以处理的范围,那么这可能不是适合您的解决方案。

关于python - 比较两个 CSV 文件的列并删除差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44967586/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com