gpt4 book ai didi

python - RegEx - 匹配可选组

转载 作者:行者123 更新时间:2023-11-28 23:06:42 25 4
gpt4 key购买 nike

我知道 RegEx 不是抓取 HTML 的最佳方式,但就是这样......我有一些类似的东西:

<td> Writing: <a href="creator.php?c=CCh">Carlo Chendi</a>  Art: <a href="creator.php?c=LBo">Luciano Bottaro</a> </td>

我需要匹配写作和艺术部分。但并不是说它们在那里,可能还有其他部件,例如墨水和铅笔......

我该怎么做?我需要使用纯 RegEx,不需要额外的 Python 库。

最佳答案

也许有两种模式需要识别。

  1. 您的关键字存在于 ...
  2. 您的关键字后跟... 部分

所以..首先提取s...(伪代码)中的所有内容

while ( match( "<td[^>]*>(.*?)</td[^>]*>" ) ) {
inner = match[1];
...
}

(.*?)意味着非贪婪地匹配,即匹配最小可能。否则,您将匹配第一个 <td> 中的所有内容到最后 </td> (而不是下一个 </td> )。

然后您可以继续处理 inner部分!

关于python - RegEx - 匹配可选组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4637688/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com