作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
希望AWK高手能解决我的问题。
我有一个这样的文件:
cat cat cat cat cat cat dog rat ate dog tit
dog cat dog dog dog rat dog pat ate cat dog
我必须使用 AWK 来提取第一个 c 和 d 之间的模式。从第一个 c 开始计数应该保留在 c 和 d 的数量上,这样当计数匹配时,第一个 c 和匹配的部分之间的部分d 应该输出到一个文件中,其中包含匹配 d 的行号。
在这个特定的例子中,匹配发生在第七只狗身上,因此输出必须是:
cat cat cat cat cat cat dog rat ate dog tit
dog cat dog dog dog rat d
匹配可以超过两行! 输出可以包含也可以不包含c和d。文本中存在各种字符,包括特殊字符!为了进行打印,计数必须匹配。
预先感谢您的回复。随时欢迎提出建议。
编辑:c 和 d 之间模式的捕获可以妥协,只要满足条件和导出行号 d 获得:)
最佳答案
一些提示,没有给出完整的解决方案:
默认情况下,awk 将每一行视为一条记录。默认的记录分隔符是 RS="\n"
.
根据您的 awk 版本,您可以设置 RS
,记录分隔符,到匹配 c
的正则表达式或 d
.然后,对于每条记录,您可以检查 RT
变量,它将包含 c
或 d
,取决于实际匹配的内容。从那里开始,使用在 c
上递增的变量, 在 d
上递减当它到达 0 时,您将能够找到匹配的结尾。
然后您可以使用一个包含到目前为止匹配项的变量,并继续连接 RT
和新记录,直到你完成。
如果需要知道匹配结束的行号,可以设置RS
匹配 c
的正则表达式, d
,和以前一样,但也增加了匹配 \n
的可能性.并通过维护另一个每次递增的计数器变量 RT
告诉你\n
已匹配,您将获得行号。
关于perl - 提取由预定义的多行字符序列包围的部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11156743/
我是一名优秀的程序员,十分优秀!