gpt4 book ai didi

linux - 递归搜索grep

转载 作者:太空狗 更新时间:2023-10-29 11:35:48 25 4
gpt4 key购买 nike

我正在尝试通过 HDFS 搜索 parquet 文件并列出它们。我正在用这个,效果很好。它查看了 /sources.works_dbo 中的所有子目录,并为我提供了所有 Parquet 文件:

 hdfs dfs -ls -R /sources/works_dbo | grep ".*\.parquet$"

但是;我只想返回它在每个子目录中遇到的第一个文件,以便每个子目录只出现在我的输出中的一行中。假设我有这个:

sources/works_dbo/test1/file1.parquet
sources/works_dbo/test1/file2.parquet
sources/works_dbo/test2/file3.parquet

当我运行我的命令时,我希望输出看起来像这样:

sources/works_dbo/test1/file1.parquet
sources/works_dbo/test2/file3.parquet

最佳答案

... | awk '!seen[gensub(/[^/]+$/,"",1)]++' file
sources/works_dbo/test1/file1.parquet
sources/works_dbo/test2/file3.parquet

以上代码使用 GNU awk 来实现 gensub(),对于其他 awk,您将使用变量和 sub():

awk '{path=$0; sub(/[^/]+$/,"",path)} !seen[path]++'

它适用于任意长度路径的任意混合。

关于linux - 递归搜索grep,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41818151/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com