regex - 在 shell 脚本中检索正则表达式后的单词-6ren

regex - 在 shell 脚本中检索正则表达式后的单词

转载作者：行者123 更新时间：2023-12-03 18:51:10

31

4

我正在尝试从具有元数据的文本文件中检索特定字段，如下所示:

project=XYZ; cell=ABC; strain=C3H; sex=F; age=PQR; treatment=None; id=MLN

我有以下脚本来检索字段 'cell'

while read line
do
cell="$(echo $line | cut -d";" -f7 )"
echo  $cell
fi
done < files.txt

但是，以下脚本将整个字段检索为 cell=ABC ，而我只想要值 'ABC'从字段中，如何在同一行代码中检索正则表达式之后的值？

最佳答案

如 提取一个值 (或者，通常，由不同捕获组捕获的一组非重复值)就足够了，您正在运行 bash , ksh , 或 zsh ，考虑使用 正则表达式匹配运算符，=~ :[[ string =~ regex ]] :

向@Adrian Frühwirth 致敬，了解 ksh 的要点和 zsh解决方案。

示例输入字符串:

string='project=XYZ; cell=ABC; strain=C3H; sex=F; age=PQR; treatment=None; id=MLN'

Shell特定使用 =~接下来讨论； =~ 的多 shell 实现可以在最后找到通过 shell 函数实现的功能。

bash

特价 BASH_REMATCH数组变量接收匹配操作的结果:元素 0包含整个匹配项，元素 1第一个捕获组的(带括号的子表达式)匹配，依此类推。
bash 3.2+ :

[[ $string =~ \ cell=([^;]+) ]] && cell=${BASH_REMATCH[1]} # -> $cell == 'ABC'

bash 4.x :
虽然上面的特定命令有效，但在 bash 4.x 中使用正则表达式文字有问题，特别是在涉及词边界断言时 \<和 \>在 Linux 上；例如， [[ a =~ \<a ]]莫名的不匹配；解决方法:使用中间变量(未加引号!): re='\a'; [[ a =~ $re ]]作品(也在 bash 3.2+ 上)。
bash 3.0 and 3.1 - 或设置后 shopt -s compat31 :
引用正则表达式以使其工作:

[[ $string =~ ' cell=([^;]+)' ]] && cell=${BASH_REMATCH[1]}  # -> $cell == 'ABC'

克什
ksh语法与 bash 中的相同，除了:

包含匹配字符串的特殊数组变量的名称是 .sh.match (您必须将名称括在 {...} 中，即使只是用 ${.sh.match} 隐式引用第一个元素):

[[ $string =~ \ cell=([^;]+) ]] && cell=${.sh.match[1]} # -> $cell == 'ABC'

zsh
zsh语法也类似于 bash，除了:

正则表达式文字必须被引用 - 为了简单起见，或者至少是一些 shell 元字符，例如 ; .

你可以，但不需要双引号作为变量值提供的正则表达式。

请注意此引用行为与 bash 3.2+ 的引用行为有何根本不同:zsh仅出于语法原因需要引用，并且始终将结果字符串作为一个整体视为正则表达式，无论它或其中的一部分是否被引用。

有 2 个变量包含匹配结果:

$MATCH包含整个匹配的字符串

数组变量 $match仅包含捕获组的匹配项(注意 zsh 数组以索引 1 开头，并且您不需要将变量名括在 {...} 中以引用数组元素)

 [[ $string =~ ' cell=([^;]+)' ]] && cell=$match[1] # -> $cell == 'ABC'

=~的多shell实现运算符作为 shell 函数 reMatch
以下shell函数抽象了 bash之间的差异, ksh , zsh关于 =~运算符(operator);匹配在数组变量 ${reMatches[@]} 中返回.

正如@Adrian Frühwirth 指出的那样，要使用此编写可移植(跨 zsh 、 ksh 、 bash )代码，您需要执行 setopt KSH_ARRAYS在 zsh使其数组以索引 0开头;作为副作用，您还必须使用 ${...[]}引用数组时的语法，如 ksh和 bash )。

应用于我们的示例，我们将得到:

  # zsh: make arrays behave like in ksh/bash: start at *0*
[[ -n $ZSH_VERSION ]] && setopt KSH_ARRAYS

reMatch "$string" ' cell=([^;]+)' && cell=${reMatches[1]}

shell 函数:

# SYNOPSIS
#   reMatch string regex
# DESCRIPTION
#   Multi-shell implementation of the =~ regex-matching operator;
#   works in: bash, ksh, zsh
#
#   Matches STRING against REGEX and returns exit code 0 if they match.
#   Additionally, the matched string(s) is returned in array variable ${reMatch[@]},
#   which works the same as bash's ${BASH_REMATCH[@]} variable: the overall
#   match is stored in the 1st element of ${reMatch[@]}, with matches for
#   capture groups (parenthesized subexpressions), if any, stored in the remaining
#   array elements.
#   NOTE: zsh arrays by default start with index *1*.
# EXAMPLE:
#   reMatch 'This AND that.' '^(.+) AND (.+)\.' # -> ${reMatch[@]} == ('This AND that.', 'This', 'that')
function reMatch {
  typeset ec
  unset -v reMatch # initialize output variable
  [[ $1 =~ $2 ]] # perform the regex test
  ec=$? # save exit code
  if [[ $ec -eq 0 ]]; then # copy result to output variable
    [[ -n $BASH_VERSION ]] && reMatch=( "${BASH_REMATCH[@]}" )
    [[ -n $KSH_VERSION ]]  && reMatch=( "${.sh.match[@]}" )
    [[ -n $ZSH_VERSION ]]  && reMatch=( "$MATCH" "${match[@]}" )
  fi
  return $ec
}

笔记:

function reMatch (与 reMatch() 相反)用于声明函数，这是 ksh 所必需的使用 typeset 真正创建局部变量.

关于regex - 在 shell 脚本中检索正则表达式后的单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22537804/

31

4

0

文章推荐： Lodash:按对象数组的属性进行联合

文章推荐： delphi - 如何检测dll库中的内存泄漏？

文章推荐： r - 成对函数每行重复 N 次

ios - 从 url 检索 jpg 图像返回 nil。但是，从 url 检索 png 图像工作正常
如果我使用下面的代码，数据将为零 dispatch_async(dispatch_get_global_queue(0,0), ^{ UIImage *img = [[UIImage allo
检索 fread 使用的列分隔符
fread来自 data.table包一般可以在读取文件时自动确定列分隔符( sep )。例如，这里fread自动检测 |作为列分隔符: library(data.table) fread(past
检索 R 中特定单元格的行名和列名
因此，如果我有一个如下所示的数据框: A B C rowname1 4.5 4 3.2 rowname2 3 23
elasticsearch - 使用Solr或Elasticsearch通过大型OR查询子句进行搜索/检索
我有一个汽车模型的搜索数据库:“日产Gtr”，“Huynday Elantra”，“Honda Accord”等。现在我还有一个用户列表和他们喜欢的汽车类型 user1喜欢:carId:1234，c
java - 检索 "To"中的邮件ID并与javamail中的用户输入进行比较
我正在使用 Javamail 来获取一些电子邮件数据。我将用户输入作为电子邮件 ID、imap 地址和密码并连接到 imap。然后我监视收件箱的电子邮件并查明此人是否在“收件人”或“抄送”中。 Ema
检索 R 中的最佳簇数
我有一些数据，我想根据差距统计来评估最佳簇数。我阅读了 gap statistic 上的页面在 r 中给出了以下示例: gs.pam.RU Number of clusters (method '
JAVA - 检索/存储用户名和密码到服务器的安全方法？
我有一个用户名和密码组合，我将使用它通过 java 代码访问安全服务器。我的想法是: 在外部存储加密凭据执行时提示用户输入解密密码在使用前将解密的凭据直接存储在字符数组中使用凭据连接到数据库
java - Firebase 检索
这是 Firebase 数据:[Firebase 数据][1] 我必须从员工那里检索所有字段并将其存储在一个数组中。现在数据更改 toast 消息即将到来，但已经很晚了。 Firebase.setA
iOS 检索 valueForKey？
我是 iOS 的新手，正在开发一个基本的应用程序，它目前正在使用 SSKeychain 和 AFNetworking 与 API 进行交互。当您使用我检索的应用程序登录并在我的 CredentialS
python - 检索/打印执行上下文
编辑:这个问题已经在 apphacker 和 ConcernedOfTunbridgeWells 的帮助下得到解决。我已更新代码以反射(reflect)我将使用的解决方案。我目前正在编写一个群体智能
c - 检索/比较文件中的字符串与用户文本
我是 C 的新手，我想编写一个程序来检查用户输入的单词是否合法。我已经在 stackoverflow 上搜索了建议，但很多都是针对特定情况的。请在我被激怒之前，我知道这个语法不正确，但正在寻找一些关于
c# - 检索/设置密码和其他敏感数据的安全程序
我相信你们中的一些人编写过 C# 类，这些类必须从数据库设置密码/从数据库获取密码。我假设敏感细节不会以明文形式显示。处理此类数据的推荐程序是什么？检索到的文本是否加密？您是否将 pws 存储在加密
Python 检索 RUID？
我在 linux 上使用 2.7 之前的 python 版本，想知道如何检索 RUID？ 2.7 及更高版本从 os 包中获得了 getresuid，但我似乎找不到 2.6 的等效项最佳答案您可以
Android LRUCache 检索
我已经在 Android 中实现了一个存储对象的标准 LRUCache。每个键都是与存储的对象关联的唯一 ObjectId。我的问题是从缓存中检索对象的唯一方法是通过 ObjectId(无迭代器)。实
c# - 检索 *** 的包元数据时出错
这已经被问过很多次了。解决方案(对我有用)是从 packages.config 文件(这就足够了)和 packages 文件夹中删除 *** 包。这对我来说是一个糟糕的解决方案，因为每次我想安装一些
python - 检索 #{ } 中的文本
我有以下文字: #{king} for a ##{day}, ##{fool} for a #{lifetime} 以及以下(损坏的)正则表达式: [^#]#{[a-z]+} 我想匹配所有#{word
.net - 检索/存储数百万个小型二进制对象的最快方法
我正在寻找一种快速(如高性能，而不是快速修复)解决方案来持久化和检索数千万个小型(大约 1k)二进制对象。每个对象都应该有一个用于检索的唯一 ID(最好是 GUID 或 SHA)。额外的要求是它应该可
chisel - 检索 RegInit 的重置值
有没有办法获取 RegInit 的重置值？通过探测产生的类型的成员？我可以看到 RegInit 将返回类型(例如 UInt )。例如，我将有一个寄存器，我想通过 regmap 对其进行控制。 val
Laravel:检索 JSON 数组中的值计数
Iv 目前接手了一个项目，其中开发人员在某些表的 json 数组列中存储了 has many 关系。产品表 ---------------------------- id | product | c
git - 检索 Git 推送历史？
Git 会在任何地方记录推送到远程的历史吗？我注意到我们能够在 Microsoft VSTS 中查看 Git 存储库的推送历史记录以及每次推送的相关提交。它甚至显示旧的、过时的提交，由于后来的强制推

首页

博学

6Ren·AI

商城

regex - 在 shell 脚本中检索正则表达式后的单词