gpt4 book ai didi

file - 在第 N 次出现分隔符时拆分文件

转载 作者:行者123 更新时间:2023-12-04 01:59:52 24 4
gpt4 key购买 nike

在每个 之后是否有一个单行将文本文件分割成碎片/块?第 N 次出现 分隔符?

例如:下面的分隔符是“+”

entry 1
some more
+
entry 2
some more
even more
+
entry 3
some more
+
entry 4
some more
+
...

有几百万个条目,因此在每次出现分隔符“+”时进行拆分是一个坏主意。例如,我想拆分分隔符“+”的第 50,000 个实例。

Unix 命令 "split"和 "csplit"似乎没有这样做......

最佳答案

使用 awk你可以:

awk '/^\+$/ { delim++ } { file = sprintf("chunk%s.txt", int(delim / 50000)); print >> file; }' < input.txt 

更新:

要不包含分隔符,请尝试以下操作:
awk '/^\+$/ { if(++delim % 50000 == 0) { next } } { file = sprintf("chunk%s.txt", int(delim / 50000)); print > file; }' < input.txt 
next关键字导致 awk 停止处理此记录的规则并前进到下一个(行)。我也换了 >>>因为如果您多次运行它,您可能不想附加旧的块文件。

关于file - 在第 N 次出现分隔符时拆分文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15559979/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com