gpt4 book ai didi

linux - 如何从 linux shell 循环遍历字符串以获得模式?

转载 作者:行者123 更新时间:2023-12-03 09:48:05 24 4
gpt4 key购买 nike

我有一个脚本,它在目录中的文件中查找像 :tagName: 这样的字符串,它适用于单个 :tag: 但不适用于多个 : tagOne:tagTwo:tagThree: 标签。

我当前的脚本:

grep -rh -e '^:\S*:$' ~/Documents/wiki/*.mkd ~/Documents/wiki/diary/*.mkd | \
sed -r 's|.*(:[Aa-Zz]*:)|\1|g' | \
sort -u
printf '\nNote: this fails to display combined :tagOne:tagTwo:etcTag:\n'

第一行生成如下输出:

:politics:violence:
:positivity:
:positivity:somewhat:
:psychology:
:socialServices:family:
:strategy:
:tech:
:therapy:babylon:
:trauma:
:triggered:
:truama:leadership:business:toxicity:
:unfurling:
:tagOne:tagTwo:etcTag:

目标 是将其放入单个 :tag: 的列表中。

同样,问题是,如果一行有多个标签,则该行根本不会出现在输出中(与仅出现该行的第一个标签的问题相反)显示)。显然 | sed... | 有问题。

**我希望将 :tagOne:tagTwo:etcTag: 变成:

:tagOne:
:tagTwo:
:etcTag:

等等 :politics:violence: 等等

冒号不是必需的,tagOne:tagOne: 一样好(也许更好,但这是微不足道的)。

问题 是,如果一行有多个标签,则该行根本不会出现在输出中(与仅显示该行的第一个标签的问题相反) .显然 | sed... | 有问题。

所以我应该用更好的东西替换 sed...

我试过:

更智能的 sed:

grep -rh -e '^:\S*:$' ~/Documents/wiki/*.mkd ~/Documents/wiki/diary/*.mkd | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sort -u

...这有效(对于有限数量的标签)除了它会产生奇怪的结果,如:

:toxicity:p:
:somewhat:y:
:people:n:

...在一些标签的末尾放置奇怪的随机字母,其中 :p::leadership: 标签的最后一个字符,“leadership” no更长的时间出现在列表中。 :y::n: 相同。

我也尝试过以多种方式使用循环...

grep -rh -e '^:\S*:$' ~/Documents/wiki/*.mkd ~/Documents/wiki/diary/*.mkd | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sed -r 's|(:[Aa-Zz]*:)([Aa-Zz]*:)|\1\r:\2|g' | \
sort -u | grep lead

...同样有 :leadership: 标签丢失等问题。就像...

for m in $(grep -rh -e '^:\S*:$' ~/Documents/wiki/*.mkd ~/Documents/wiki/diary/*.mkd); do
for t in $(echo $m | grep -e ':[Aa-Zz]*:'); do
printf "$t\n";
done
done | sort -u

...根本不分隔标签,只是打印如下内容::truama:leadership:business:toxicity

我应该采取其他方法吗?使用不同的实用程序(可能是在循环内 cut)?也许在 python 中执行此操作(我有一些 python 脚本但不太了解该语言,但这样做可能很容易)?每次我看到 awk 我都会想“EEK!”所以我更喜欢非 awk 解决方案,更愿意坚持我使用过的范例以便更好地学习它们。

最佳答案

grep(如果可用)和正向后视中使用 PCRE:

$ echo :tagOne:tagTwo:tagThree: |  grep -Po "(?<=:)[^:]+:"
tagOne:
tagTwo:
tagThree:

您将失去领先的 : 但仍然获得标签。

编辑:有人提到 awk 吗?:

$ awk '{
while(match($0,/:[^:]+:/)) {
a[substr($0,RSTART,RLENGTH)]
$0=substr($0,RSTART+1)
}
}
END {
for(i in a)
print i
}' file

关于linux - 如何从 linux shell 循环遍历字符串以获得模式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65052880/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com