regex - 带有捕获组的正则表达式，用于由可变数量的单词组成的子字符串-6ren

regex - 带有捕获组的正则表达式，用于由可变数量的单词组成的子字符串

转载作者：太空宇宙更新时间：2023-11-04 10:24:54

24

4

使用以下Bash脚本（改编自this answer）：

#!/bin/bash

while IFS= read -r line || [[ -n "$line" ]]; do
if [[ "$line" =~ ^([[:alpha:]]+)[[:space:][:punct:]]+([[:alpha:][:space:]]+)[[:space:]]([[:digit:]+[mcg|mg|g][:space:][\/0-9a-zA-Z[：space：]]*])[\[]([[:digit:]]+)[\]]([[:alpha:]]*)$ ]]
then
 printf "Ingredient: %s\n" "${BASH_REMATCH[1]}"
 printf "Brand name: %s\n" "${BASH_REMATCH[2]}"
 printf "Strength: %s\n" "${BASH_REMATCH[3]}"
 printf "Pack size: %s\n" "${BASH_REMATCH[4]}"
 printf "Form: %s\n" "${BASH_REMATCH[5]}"
fi  
done < "${1:-/dev/stdin}"

我想匹配以下行（通过stdin或通过作为第一个参数传递的文件提供）：

Calcipotriol - Daivonex Cream 50mcg/1g 30 g [1]
Candesartan cilexetil - Atacand 4mg [30] capsule
Danazol - Azol 100mg [100] 
Dexamethasone - Dexmethsone 0.5g [1] tablet

并将它们解析为4-5个字段。
例如，行 Calcipotriol - Daivonex Cream 50mcg/1g 30 g [1]应该被分成如下字段：
Calcipotriol（成分）
Daivonex Cream（品牌名称）
50mcg/1g 30 g（强度）
1（包装尺寸）
（空，因为后面没有文本）
但是，当我运行脚本时，没有匹配的内容。
这里是单独的regex（换行符只是为了可读性）：
[1]
你能告诉我如何匹配一个字符串，比如

^([[:alpha:]]+)[[:space:][:punct:]]+([[:alpha:][:space:]]+)[[:space:]]([[:digit:]+[mcg|mg|g][:space:][\/0-9a-zA-Z[：space：]]*])[\[]([[:digit:]]+)[\]]([[:alpha:]]*)$

并在 50mcg/1g 30 g中捕获它吗？

最佳答案

与您的previous question一样，awk提供了一个更易于维护、速度更快的解决方案：
awk是最好的选择，因为您的输入基本上是基于字段的，而将输入分解为字段是awk的亮点。要了解awk，请参阅系统上的awk POSIX spec或运行man awk或info awk。
为了简单起见，并与示例输入保持一致，所有行内空白都假定为空格；如果还应该匹配制表符，则将regex中的实例替换为[[:blank:]]。

awk -F' +- +|[][]' '
  { 
    name = $2; sub(" +[0-9.]+(mc?)?g.*", "", name)
    strength = substr($2, 1 + length(name)); sub("^ +", "", strength)
    form = ""
    if (NF > 3) { form = $NF; sub("^ +", "", form) }

    print "Ingredient:", $1
    print "Brand name:", name
    print "Strength:  ", strength
    print "Pack size: ", $3
    print "Form:      ", form
    print "---"
  }
' <<'EOF'
Calcipotriol - Daivonex Cream 50mcg/1g 30 g [1]
Candesartan cilexetil - Atacand 4mg [30] capsule
Danazol - Azol 100mg [100] 
Dexamethasone - Dexmethsone 0.5g [1] tablet
EOF

产量：

Ingredient: Calcipotriol
Brand name: Daivonex Cream
Strength:   50mcg/1g 30 g 
Pack size:  1
Form:       
---
Ingredient: Candesartan cilexetil
Brand name: Atacand
Strength:   4mg 
Pack size:  30
Form:       capsule
---
Ingredient: Danazol
Brand name: Azol
Strength:   100mg 
Pack size:  100
Form:       
---
Ingredient: Dexamethasone
Brand name: Dexmethsone
Strength:   0.5g 
Pack size:  1
Form:       tablet
---

以下是您的pure bash尝试的固定和简化版本：

while IFS= read -r line || [[ -n "$line" ]]; do
  if [[ "$line" =~ ^([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])[[:blank:][:punct:]]+([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])[[:blank:]]+([^[]+)\[([0-9]+)\][[:blank:]]*([[:alpha:]]*)$ ]]
  then    
    printf "Ingredient: %s\n" "${BASH_REMATCH[1]}"
    printf "Brand name: %s\n" "${BASH_REMATCH[2]}"
    read -r strength <<<"${BASH_REMATCH[3]}"
    printf "Strength: %s\n" "$strength"
    printf "Pack size: %s\n" "${BASH_REMATCH[4]}"
    printf "Form: %s\n" "${BASH_REMATCH[5]}"
  fi  
done < "${1:-/dev/stdin}"

([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])的实例用于捕获成分和品牌名称；表达式捕获由空白分隔的纯字母单词的变量列表（列表中包含一个单字母单词）。
简化的regex通过使用 mcg匹配品牌名称后面的所有内容，直到使用 mg匹配下面的 g（包大小的开始），从而避免了 [/ [^[]+解析困难，不管它包含多少空格；因为这包括尾随空格， read稍后将用于修剪。
如果确实需要显式匹配以排除误报：
将 mcg替换为 mg
将 gindex [^[]+替换为 ([[:digit:].]+(mcg|mg|g)[/0-9a-zA-Z[:space:]]*)，将 $BASH_REMATCH替换为 5，因为出于技术原因，上面引入了一个新的捕获组-请参阅下面的说明。
请注意如何使用 6（匹配制表符或空格）来代替 4，因为后者还匹配新行，根据定义，新行在此不存在。
您最初的尝试存在各种问题，其中一些问题已经由 Benjamin W.在对该问题的评论中指出：
5应该是 [:blank:]或 [:space:]，因为 [mcg|mg|g]是一个 bracket expression：在这种情况下，任何一个字符都匹配单个字符，这样实际上就匹配单个 (mcg|mg|g)、 (mc?)?g、 [mcg|mg|g]或 m字符。
c使用非ASCII fullwidth colons，Bash无法将其识别为字符类的一部分。
不是问题本身，而是警告和简化机会：
你混合了 |和，这只保证在ASCII范围内工作；与外文匹配，坚持 g；反之， [：space：]可以假设匹配非ASCII数字，因此 [:alpha:]可能是更安全的选择。
不需要在 a-zA-Z中的 [:alpha:]内转义 [:digit:]，因为 [0-9]不是regex元字符，也不用作 /中的regex分隔符。
[...]和 bash表示文字 /和 bash是不必要的复杂；请使用 [\[]和 [\]]代替。
主要的问题是你似乎对括号表达式的工作方式有一个误解。例如， [是一个构造错误的单括号表达式，它应该是多个独立的子表达式：
]-一个括号表达式，用于匹配一系列数字和/或 \[（例如，也用于匹配 \]）。
[[:digit:]+[mcg|mg|g][:space:][/0-9a-zA-Z[:space:]]*]一个括号化的子表达式（捕获组），使用交替< cc>匹配三个令牌中的任何一个；注意，在 [[:digit:].]+正则表达式中使用 .总是创建一个捕获组，即使只需要括号优先，那么当索引为 0.5g时，您需要说明这个值。
(mcg|mg|g)-另一个括号表达式，它匹配由 |字符、十进制数字、ASCII字母和空白字符组成的任何（可能为空）字符运行。
然后，连接这些子表达式时应匹配字符串，如 (...)，您可以按如下方式验证该字符串：
bash
有很好的在线工具可以可视化和调试正则表达式，它们也是很好的教学工具。一个例子是 regex101.com。
注意，这些工具通常不直接支持 ${BASH_REMATCH[@]}和各种Unix实用程序中的（通常是平台特定的）regex方言，但是选择 [/0-9a-zA-Z[:space:]]*作为方言通常会提供一个超集。
需要注意的是，您需要知道您的特定实用程序支持哪些子集，否则您最终可能会得到一个只在联机测试仪中工作的regex。
/如何匹配 50mcg/1g 30 g的演示可以找到 here。
Here是来自上述固定 [[ '50mcg/1g 30 g' =~ [[:digit:].]+(mcg|mg|g)[/0-9a-zA-Z[:space:]]* ]] && echo "MATCHED: >>>${BASH_REMATCH[0]}<<<"溶液的完整regex，对照完整样本输入行进行测试。

关于regex - 带有捕获组的正则表达式，用于由可变数量的单词组成的子字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42060065/

24

4

0

文章推荐： java - 如何在Java中创建文件列表？

文章推荐： python - 我怎样才能允许一个或多个参数来初始化一个类？

java - 几个 "ChildException"捕获 block 与一个 "Exception"捕获 block
多个 ChildException catch block 和一个 Exception catch block 之间哪个更好？更好，我的意思是以良好的实践方式。举例说明: public stati
通过测试连接进行Powershell尝试/捕获
我正在尝试将脱机计算机记录在文本文件中，以便以后可以再次运行它们。似乎没有被记录或捕获。 function Get-ComputerNameChange { [CmdletBinding()]
scala - 拦截与尝试/捕获
我正在将 Scala 'try/catch' 测试代码转换为使用 'intercept' 有没有我不应该使用“拦截”的场景？使用 'intercept' 而不是 'try/catch' 的唯一好处是简
erlang - 如何在Erlang中进行尝试/捕获
我对erlang很陌生，我正在尝试使用基本的try/catch语句来工作。我正在使用Webmachine处理一些请求，我真正想做的就是解析一些JSON数据并将其返回。如果JSON数据无效，我只想返回一
delphi - 捕获 'delete'按键
我不知道如何捕获删除按键。我发现在 ASCII 代码表中，它位于 127 位，但是 if (Key = #127) then 却无济于事。然后我检查了 VK_DELETE 的值，它是 47。尝试使用
php - 对所有PDO查询进行一次全局尝试{}捕获{}
我很少在失败时对数据库查询使用唯一的错误消息我经常使用简短的标准消息，例如“数据库错误/失败。请与网站管理员联系”或类似的消息。或自动发送给我我正在寻找一种在PDO中全局设置一次try {}和ca
Java : CompletableFuture 捕获
我有一个变量CompletableFuture completableFuture 。我希望能够使用任何类型的对象来完成它。例如:completableFuture.complete(new Stri
Java 捕获 IOException
我认为这是基本的东西，但我不知道该怎么做。为什么我得到 IOException never throw in body of相应的 try 语句 public static void main(Str
java - 捕获 JSONException
我在此代码中遇到 JSON 异常: JSONObject jObject = new JSONObject(JSONString); pontosUsuario.setIdUsuari
单引号之间的 Perl 捕获
我正在尝试打印出用单引号括起来的文本。 /bin/bash -lc '/home/CASPER_REPORTS/scripts/CASPER_gen_report.sh CASPER_1' /bin/
java - 捕获 IllegalArgumentException？
我这里遇到了一点问题。我想弄清楚如何捕获 IllegalArgumentException。对于我的程序，如果用户输入负整数，程序应该捕获 IllegalArgumentException 并询问用户
java - 捕获 EJBTransactionRolledbackException
我无法理解 EJBTransactionRolledbackException。我有实体: @Entity public class MyEntity { @Id @Generate
.net - 实时网络使用统计监控/捕获？
对于我给自己提出的以下挑战，如果社区的经验给我任何建议，我将不胜感激 - 即，这里有任何关于最佳方法/方向的指示吗？要求允许收集/实时监控从用户 Windows PC 到一组特定 IP 地址(或
exception - 捕获 SAPSQL_DATA_LOSS
我想在我的 ABAP 代码中捕获并处理 SAPSQL_DATA_LOSS。我试过这个: try. SELECT * FROM (rtab_name) AS rtab
java - 捕获 UnsatisfiedLinkError
我知道捕获错误不是一个好的做法，但在这种情况下，这样做很重要。我正在尝试运行一个包含游戏一部分的 jar，但它给了我一个 unsatisfiedlink 错误，但这是有趣的部分:我正在使用这段代码:
java - 捕获 GenericJDBCException
我有一个表单页面，当我保存它时，它会覆盖数据库。表单页面中有一个文本框，允许用户输入 4000 个字符，但如果用户输入的字符超过此值，则会出现以下错误: ERROR 15:54:05 Abstrac
Python键绑定(bind)/捕获
我想知道在python中绑定(bind)键的最简单方法例如，默认的 python 控制台窗口出现并等待，然后在 psuedo -> if key "Y" is pressed: print (
java - 捕获 NumberFormatException
下面是别人写的类。我面临的问题是，当它进入parse method时与 null as the rawString ，它正在扔NumberFormatException 。所以我想做的是，我应该捕
jquery - 捕获/拦截所有鼠标点击
我有一个简单的脚本，可以捕获所有鼠标单击，除非您单击实际有效的内容。链接、Flash 视频等。我如何调整它，以便无论用户点击什么，在视频加载、新页面加载等之前，它都会发送我构建的简单 GET 请求？
当选择列表值更改而没有更改事件时，Jquery 捕获
我有一个带有一些选择列表的表单，当选择某些值时，这些列表将显示/隐藏更多输入字段。问题是大多数用户都是数据输入人员，因此他们在输入数据时大量使用键盘，并且选择列表的 change 事件仅在焦点离开输

首页

博学

6Ren·AI

商城

regex - 带有捕获组的正则表达式，用于由可变数量的单词组成的子字符串