gpt4 book ai didi

linux - 删除一个巨大的文本文件中只包含数字和标点符号的行

转载 作者:太空宇宙 更新时间:2023-11-04 11:06:36 25 4
gpt4 key购买 nike

我的 500 万字 Kannada 文本文件中有这样的东西:

, .
, , , .
, .
2005 .
, , 878 .
, .
2008 .
- , 751 .
- .

我需要删除这类行。

最佳答案

使用 sed:

sed -n  '/^[[:punct:][:digit:][:space:]]\+$/!p' file
sed '/^[[:punct:][:digit:][:space:]]\+$/d' file
sed -nr '/^[[:punct:][:digit:][:space:]]+$/!p' file
sed -r '/^[[:punct:][:digit:][:space:]]+$/d' file

使用 awk:

awk '!/^[[:punct:][:digit:][:space:]]+$/' file

另一种方法是只打印带有字母字符的行:

awk '/[[:alpha:]]' file
awk '/[A-Za-z]/' file
sed -n '/[[:alpha:]]/p' file
sed '/[A-Za-z]/!d' file

当然你可以使用 sed 和 -i 来进行内联编辑:

sed -i.bak ...

忘记了grep:

grep -v '^[[:punct:][:digit:][:space:]]\+$' file
grep '[[:alpha:]]' file

关于linux - 删除一个巨大的文本文件中只包含数字和标点符号的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25013113/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com