python - 匹配多个包含括号内文本的完整 HTML 段落-6ren

python - 匹配多个包含括号内文本的完整 HTML 段落

转载作者：行者123 更新时间：2023-12-01 08:01:09

28

4

我需要匹配包含三个大括号之间的文本的完整 HTML 段落。

这是我输入的 HTML:

<p><strong>{{{Lorem ipsum dolor sit amet.</strong></p>
<p>Ut enim ad minim veniam.</p>
<p>Duis aute irure dolor}}}</p>
<p><em>Excepteur sint occaecat cupidatat non proident.</em></p>
<p><strong><em>Sed {{{ut perspiciatis unde omnis iste natus error.</em></strong><em> sit voluptatem accusantium doloremque laudantium.</em></p>
<p>Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet.}}}</p>
<p>Ut enim ad minima veniam, quis nostrum exercitationem.</p>

应匹配以下片段:

<p><strong>{{{Lorem ipsum dolor sit amet.</strong></p>
<p>Ut enim ad minim veniam.</p>
<p>Duis aute irure dolor}}}</p>

和

<p><strong><em>Sed {{{ut perspiciatis unde omnis iste natus error.</em></strong><em> sit voluptatem accusantium doloremque laudantium.</em></p>
<p>Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet.}}}</p>

目前我正在尝试使用以下正则表达式:

<p>.*?{{{.*?}}}<\/p>/gms

显然，它无法正常工作。

这是一个 Regex101 示例:https://regex101.com/r/9NSMy3/2

我知道使用正则表达式解析 HTML 不是最好的主意，因此任何其他解决方案也受到高度赞赏。

最佳答案

您可以使用 HTML 解析器查找所有 p 元素，检查每个元素是否与 in 运算符匹配，并将匹配项存储在列表中。在这里，我使用 begin 标志检查之前是否已经看到一组左括号(以跟踪正在进行的匹配)。

from bs4 import BeautifulSoup

inputhtml = '''
<p><strong>{{{Lorem ipsum dolor sit amet.</strong></p>
<p>Ut enim ad minim veniam.</p>
<p>Duis aute irure dolor}}}</p>
<p><em>Excepteur sint occaecat cupidatat non proident.</em></p>
<p><strong><em>Sed {{{ut perspiciatis unde omnis iste natus error.</em></strong><em> sit voluptatem accusantium doloremque laudantium.</em></p>
<p>Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet.}}}</p>
<p>Ut enim ad minima veniam, quis nostrum exercitationem.</p>
'''

soup = BeautifulSoup(inputhtml,'html.parser')

fragments = []
begin = False
for p in soup.find_all('p'):
    if '{{{' in p.text:
        begin = True
        fragments.append(str(p))
    if '}}}' in p.text:
        begin = False
    if '}}}' in p.text and not '{{{' in p.text:
        fragments[-1] += str(p)
    elif begin and not '{{{' in p.text and not '}}}' in p.text:
        fragments[-1] += str(p)

print(fragments)

输出:

['<p><strong>{{{Lorem ipsum dolor sit amet.</strong></p><p>Ut enim ad minim veniam.</p><p>Duis aute irure dolor}}}</p>',
'<p><strong><em>Sed {{{ut perspiciatis unde omnis iste natus error.</em></strong><em> sit voluptatem accusantium doloremque laudantium.</em></p><p>Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet.}}}</p>']

关于python - 匹配多个包含括号内文本的完整 HTML 段落，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55724571/

28

4

0

文章推荐： Java对象列表: Aggregation

文章推荐： macos - 在哪里可以找到有关 Skype 桌面 API 的文档？

intellij-idea - 在 IntelliJ 上删除周围的引号/括号/括号/等
IntelliJ 有没有办法删除周围的括号、括号、引号等？例如，如果我有: "string" 有没有办法删除匹配的引号并得到这个？ string 最佳答案不是直接的，但以下替换表达式(ctrl+R，
Javascript 括号
我有一段代码是这样的； var x(10); var i = 3; x(i) = 7 document.write("The stored value is " + x(3) +" 这是我正在阅读的书
sql - sql语句中的[]括号
括号在sql语句中的作用是什么？例如，在声明中: 插入 table1 ([columnname1], columnname2) 值 (val1, val2) 另外，如果表名在括号中，它会做什么？最
java - 为什么java注解语法有()[括号]？
为什么在“java”中，当你声明“注释”的“参数”时，必须在参数后面放置“一对括号”，注释在语法上与“接口(interface)”形式“非常不同”，所以为什么这很奇怪语法...我知道这与注释是使用幕后
java - 后缀到中缀 - 括号
我正在尝试实现后缀到中缀和中缀到后缀(使用堆栈)，一切都很顺利，除了当我从后缀转换时我无法想出如何处理括号的想法。它说我必须使用最少数量的括号。例如: ab+c*da-fb-*+ (a+b)*c+
javascript - 如何循环遍历JSON数组的[]括号？
我有这样的数据: $json_data_array = '[ { "id": 1, "value": "hr@test.com",
c# - 替换字符串中的 [ ] 括号
我有一个字符串，其中包含数字周围的方括号 []。由于此字符串代表我的 SQL 数据库的列名称，因此我需要删除/替换它们。到目前为止，我通过以下方式进行: if (stringWithBracket.C
javascript - 为什么JavaScript函数调用中没有(){括号}
这是 index.js 文件的代码快照，它是在新的 phonegap 项目中默认创建的。 var app = { // Application Constructor initiali
php - 如何使用php插入mysql数据库时删除[,]括号
您好，先生，我正在通过 url 将数组列表 android 发送到 php，它也成功插入，但是 start[ 和 end ] 这个小括号也插入了，我想删除它我尝试以下代码.. 请告诉我如何删除括号
css 括号 - 间距问题
我正在尝试将 css 括号括在我的 h2 标题周围(大概 90% 都在那里)，但我在解决一些小问题时遇到了麻烦: 1. 右边线的间距有点偏，应该拿过来与支架连接。我该如何调整？和 2. 通过 bg.
c - 递归解析 - 括号
有人能给我一些关于这个问题的提示吗:仅当表达式包含正确闭合的圆括号和大括号并且没有其他字符(甚至空格)时，它才是正确的。例如，() ({} () ({})) 是正确的表达式，而 ({)} 不是正确的表
CSS 括号/双分号？
这怎么让宽度变成 100%？ .test { width: (50%;); } 我已经知道如何修复它，使其变为 50%，并且该语句或多或少是多余的，我只想知道为什么会发生这种情况。编辑:ht
python - DataFrame问题(括号)
请问python的语法本质上df.head()和df.head有什么区别？我可以解释为前一个是用于调用方法，而后一个只是试图获取DataFrame的属性，即头部？我很困惑为什么有时末尾有括号但有时
c# - 字符串构造函数和字符串本身之间的C#括号
我通过C＃阅读了一些MSDN文档，发现一段代码可以在字符串构造函数和字符串本身之间使用，就像这样 string[] stringname; 这是什么意思呢？最佳答案这只是一个数组声明。这意味着st
PHP 数组 - 括号
是否有人知道在创建 PHP 数组时 [ ] 的含义，以及是否真的需要它。因为从我的角度来看。两种方式都够了方式一，带括号: $cars[] = array ('expensive' => $BMW,
php - MySQL 括号？
最近我看到了很多将 SQL 值包含在 {} 中的 PHP/MySQL 问题，例如: SELECT * FROM table WHERE field LIKE '{$value}'; 这是怎么回事？它甚
Java 正则表达式 - "()"括号
Pattern pattern = Pattern.compile("([a-zA-Z]+)") Matcher matcher = pattern.matcher("Text"); matcher.
字符串周围的 C++ 括号
这个问题在这里已经有了答案: Usage of string::c_str on temporary string [duplicate] (2 个答案) 关闭 8 年前。如果我有一个函数 myf
python - 括号 [ ] 出现在类名之后是什么意思？
例如， class BasicTransitionFunction(TransitionFunction[GrammarBasedState]): ... 其中TransitionFunc
c++ - if 括号 if(...) 中语句的求值顺序是什么？
这个问题在这里已经有了答案: Is short-circuiting logical operators mandated? And evaluation order? (7 个答案) Safety

首页

博学

6Ren·AI

商城

python - 匹配多个包含括号内文本的完整 HTML 段落