gpt4 book ai didi

regex - 如何在 300GB .txt 文件上使用 awk 和 grep?

转载 作者:行者123 更新时间:2023-12-03 02:03:20 24 4
gpt4 key购买 nike

我有一个巨大的 .txt 文件,更准确地说是 300GB,我想将第一列中与我的模式匹配的所有不同字符串放入不同的 .txt 文件中。

awk '{print $1}' file_name | grep -o '/ns/.*' | awk '!seen[$0]++' > test1.txt

这是我尝试过的,据我所知它工作正常,但问题是在一段时间后我收到以下错误:

awk: program limit exceeded: maximum number of fields size=32767
FILENAME="file_name" FNR=117897124 NR=117897124

有什么建议吗?

最佳答案

错误消息告诉您:

line(117897124) has to many fields (>32767).

你最好检查一下:

sed -n '117897124{p;q}' file_name
<小时/>

使用cut提取第一列:

cut -d ' ' -f 1 < file_name | ...

注意:您可以将 ' ' 更改为任何字段分隔符。默认为 $'\t'

关于regex - 如何在 300GB .txt 文件上使用 awk 和 grep?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23934694/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com