gpt4 book ai didi

sed - 用sed替换2个已知模式之间的可变长度字符串

转载 作者:行者123 更新时间:2023-12-04 13:55:23 31 4
gpt4 key购买 nike

我希望能够在2个已知模式之间替换字符串。我要抓住的是,我想用仅由“ x”组成的相同长度的字符串替换它。

假设我有一个包含以下内容的文件:

Hello.StringToBeReplaced.SecondString
Hello.ShortString.SecondString


我希望输出是这样的:

Hello.xxxxxxxxxxxxxxxxxx.SecondString
Hello.xxxxxxxxxxx.SecondString

最佳答案

使用sed循环

您可以使用sed,尽管所需的思想并不完全清楚:

sed ':a;s/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/;t a'


这是针对GNU sed的; BSD(Mac OS X) sed和其他版本可能比较麻烦,并且要求:

sed -e ':a' -e 's/^\(Hello\.x*\)[^x]\(.*\.SecondString\)/\1x\2/' -e 't a'


两者的逻辑是相同的:


创建标签 a
替换引导字符串和 x的序列(捕获1),后跟非 x以及任意其他数据加上第二个字​​符串(捕获2),然后将其替换为捕获1的内容, x和捕获内容2。
如果 s///命令进行了更改,请返回标签 a


当两个标记字符串之间没有非 x时,它将停止替换。

对正则表达式的两个调整允许代码在一行上识别模式的两个副本。丢失将匹配锚定到行首的 ^,然后将 .*更改为 [^.]*(这样,正则表达式就不会那么贪心了):

$ echo Hello.StringToBeReplaced.SecondString Hello.StringToBeReplaced.SecondString |
> sed ':a;s/\(Hello\.x*\)[^x]\([^.]*\.SecondString\)/\1x\2/;t a'
Hello.xxxxxxxxxxxxxxxxxx.SecondString Hello.xxxxxxxxxxxxxxxxxx.SecondString
$


使用容纳空间

hek2mgl建议在 sed中使用保留空间的另一种方法。可以使用以下方法实现:

$ echo Hello.StringToBeReplaced.SecondString |
> sed 's/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
> h
> s/.*@@//
> s/./x/g
> G
> s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
> '
Hello.xxxxxxxxxxxxxxxxxx.SecondString
$


该脚本不如循环版本健壮,但可以正常工作,如每行匹配引线中尾模式。首先将线分为三个部分:第一个标记,要被修整的钻头和第二个标记。它进行了重新组织,以使两个标记由 @分隔,然后由 @@和要修饰的位分隔。 h将结果复制到保留空间。删除所有内容,直到 @@;将要替换的位中的每个字符替换为 x,然后在模式空间中的 x之后复制保留空间中的内容,并用换行符分隔它们。最后,识别并捕获 x,前导标记和尾部标记,而忽略换行符, @@@以及尾随材料,然后重新组装为前导标记, x和尾巴标记。

为了使其健壮,您需要识别出模式,然后将 {}中显示的命令进行分组以将它们分组,以便仅在识别出模式时才执行它们:

sed '/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/{
s/^\(Hello\.\)\([^.]\{1,\}\)\(\.SecondString\)/\1@\3@@\2/
h
s/.*@@//
s/./x/g
G
s/\(x*\)\n\([^@]*\)@\([^@]*\)@@.*/\2\1\3/
}'


调整以适应您的需求...

调整以适应您的需求


[我尝试了您的一种解决方案,但效果很好。]
但是,当我尝试用我的真实字符串替换“ hello”(即
' 1.2.840.')和我的第二个字符串(只是一个点' .'),一切就停止了
加工。我想所有这些点都会混淆 sed命令。
我试图实现的是将这个' 1.2.840.10008.'转换为
' 1.2.840.xxxxx.'

而且此模式在我的文件中多次发生,且编号可变
' 1.2.840.'和下一个点' .'之间要替换的字符数


在某些情况下,使您的问题足够接近实际情况很重要,这可能就是一个这样的情况。点是的元字符
sed正则表达式(以及大多数其他正则表达式中的方言-shell遍历是明显的例外)。如果“待修改的位”始终是数字,那么我们可以收紧正则表达式,尽管实际上(当我看前面的代码时)收紧实际上并没有太多限制。

几乎所有使用正则表达式的解决方案都是一种平衡行为,必须使便利性和缩写性与可靠性和准确性相抵触。

修改后的代码和数据

cat <<EOF |
transform this '1.2.840.10008.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.21. and 1.2.840.20992. should lose the 21 and 20992.
EOF

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'


输出示例:

transform this '1.2.840.xxxxx.' to '1.2.840.xxxxx.'
OK, and hence 1.2.840.xx. and 1.2.840.xxxxx. should lose the 21 and 20992.


脚本中的更改是:

sed ':a;s/\(1\.2\.840\.x*\)[^x.]\([^.]*\.\)/\1x\2/;t a'



添加 1\.2\.840\.作为开始模式。
将“替换字符”表达式修改为“不是 x.”。
仅使用 \.作为尾巴样式。


如果您确定只希望数字匹配,可以用 [^x.]替换 [0-9],在这种情况下,您不必担心空格,如下所述。

您可能会决定不希望将空格匹配,以便随便添加如下注释:

The net prefix is 1.2.840. And there are other prefixes too.


最终不会是:

The net prefix is 1.2.840.xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.


在这种情况下,您可能需要使用:

sed ':a;s/\(1\.2\.840\.x*\)[^x. ]\([^ .]*\.\)/\1x\2/;t a'


因此,更改将继续进行,直到您拥有足够精确的功能来执行所需的操作,而无需对当前数据集执行任何不需要的操作。编写防弹正则表达式需要对要匹配的内容进行精确说明,并且可能很难。

关于sed - 用sed替换2个已知模式之间的可变长度字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29174646/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com