gpt4 book ai didi

awk - 仅当 '\n' 的出现多于一个数字时,才用空格替换 '\t'

转载 作者:行者123 更新时间:2023-12-01 08:49:30 26 4
gpt4 key购买 nike

我有数以万计的制表符分隔的数据文件,每个都喜欢:

a0\ta1\ta2\ta3\ta4\ta5\ta6\ta7\ta8\ta9\n
b0\tb1\tb2\tb3\tb4\tb5\tb6\tb7\tb8\tb9\n
...

但是,偶尔会有一些文件包含(随机)格式错误的行,例如:

a0\ta1\ta2\ta3_0\n
a3_1\ta4\ta5\ta6\ta7\ta8\ta9\n
b0\tb1\tb2_0\n
b2_1\tb3\tb4\tb5\tb6\tb7\tb8\tb9\n
...

其中 a3_0a3_1(分别为 b2_0b2_1)是 a3 (b2 resp.) 最初由空格分隔。仅当行太短或 \t 太少时,我想用空格替换行尾的每个 \n。目前 5 似乎是一个安全的阈值。

我经常用sed做一些修改,比上面的要简单很多。我想知道 sed 或其他一些命令(如 awk? 我还需要学习)是否可以用于快速处理(因为我有很多文件)。谢谢。

最佳答案

使用 GNU awk 处理多字符 RSRT(以及后来的 -i infileENDFILE)并使用逗号而不是制表符来提高可见性:

$ cat file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0
a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0
b2_1,b3,b4,b5,b6,b7,b8,b9

$ awk -v RS='([^,]*,){9}[^\n]*\n' '{$0=RT; sub(/\n$/,"") gsub(/\n/," ")} 1' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

上面的 [ab-] 使用 RS 将每条记录(而不是记录分隔符)描述为一系列 10 个逗号分隔的字段,以换行符结尾,然后在打印之前在每条记录中适本地替换换行符。

只需将 RS='([^,]*,){9}[^\n]*\n' 更改为 RS='([^\t]*\t){9}[^\n]*\n' 使其可以使用制表符分隔而不是逗号分隔的字段。

要对所有文件进行更改,请添加 -i inplace:

awk -i inplace -v RS='...' '...' *

或:

find ... -exec awk -i inplace -v RS='...' '...' {} +

实际上,您甚至不必对 RS 进行硬编码,假设每个输入文件中至少有 1 行完整的行,该工具就可以解决:

$ awk -F',' '
BEGIN { ARGV[ARGC] = ARGV[ARGC-1]; ARGC++ }
NR==FNR { n=(NF>n?NF:n); next }
ENDFILE { RS="([^"FS"]*"FS"){"n-1"}[^\n]*\n" }
{ $0=RT; sub(/\n$/,"") gsub(/\n/," "); print }
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

只需将 -F',' 更改为 -F'\t' 即可进行制表符分隔。

使用 POSIX awks 仅供引用,上述两个 gawk 脚本的最接近等效项是:

$ awk '
{ rec=rec $0 RS }
END{
while ( match(rec,/([^,]*,){9}[^\n]*\n/) ) {
tgt = substr(rec,RSTART,RLENGTH)
sub(/\n$/,"",tgt)
gsub(/\n/," ",tgt)
print tgt
rec = substr(rec,RSTART+RLENGTH)
}
}
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

和:

awk -F',' '
{ rec=rec $0 RS; n=(NF>n?NF:n) }
END{
while ( match(rec,"([^"FS"]*"FS"){"n-1"}[^\n]*\n") ) {
tgt = substr(rec,RSTART,RLENGTH)
sub(/\n$/,"",tgt)
gsub(/\n/," ",tgt)
print tgt
rec = substr(rec,RSTART+RLENGTH)
}
}
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

请注意,那些在主处理开始之前将整个文件读入单个字符串的人,因此如果您的文件太大而无法放入内存但您已经告诉我们每个文件都“非常小”,那么它们就会失败应该不是问题。

要覆盖输入文件,最简单的方法总是:

awk '{...}' file > tmp && mv tmp file

但在这种情况下,您也可以这样做:

awk '{...} END{... print tgt > ARGV[1] ...}' file

这在这种情况下有效,因为 awk 在开始 END 部分之前已经完成了对输入文件的读取。不要在脚本的其他地方尝试。

关于awk - 仅当 '\n' 的出现多于一个数字时,才用空格替换 '\t',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45801586/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com