gpt4 book ai didi

perl - 提取由预定义的多行字符序列包围的部分

转载 作者:行者123 更新时间:2023-12-02 22:38:01 26 4
gpt4 key购买 nike

希望AWK高手能解决我的问题。

我有一个这样的文件:

cat cat cat cat cat cat dog rat ate dog tit 
dog cat dog dog dog rat dog pat ate cat dog

我必须使用 AWK 来提取第一个 cd 之间的模式。从第一个 c 开始计数应该保留在 cd 的数量上,这样当计数匹配时,第一个 c 和匹配的部分之间的部分d 应该输出到一个文件中,其中包含匹配 d 的行号。

在这个特定的例子中,匹配发生在第七只狗身上,因此输出必须是:

cat cat cat cat cat cat dog rat ate dog tit 
dog cat dog dog dog rat d

匹配可以超过两行! 输出可以包含也可以不包含cd。文本中存在各种字符,包括特殊字符!为了进行打印,计数必须匹配。

预先感谢您的回复。随时欢迎提出建议。

编辑:cd 之间模式的捕获可以妥协,只要满足条件和导出行号 d 获得:)

最佳答案

一些提示,没有给出完整的解决方案:

默认情况下,awk 将每一行视为一条记录。默认的记录分隔符是 RS="\n" .

根据您的 awk 版本,您可以设置 RS ,记录分隔符,到匹配 c 的正则表达式或 d .然后,对于每条记录,您可以检查 RT变量,它将包含 cd ,取决于实际匹配的内容。从那里开始,使用在 c 上递增的变量, 在 d 上递减当它到达 0 时,您将能够找到匹配的结尾。

然后您可以使用一个包含到目前为止匹配项的变量,并继续连接 RT和新记录,直到你完成。

如果需要知道匹配结束的行号,可以设置RS匹配 c 的正则表达式, d ,和以前一样,但也增加了匹配 \n 的可能性.并通过维护另一个每次递增的计数器变量 RT告诉你\n已匹配,您将获得行号。

关于perl - 提取由预定义的多行字符序列包围的部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11156743/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com