gpt4 book ai didi

Python 正则表达式后视需要固定宽度的模式

转载 作者:太空狗 更新时间:2023-10-29 13:35:27 29 4
gpt4 key购买 nike

在尝试提取 html 页面的标题时,我总是使用以下正则表达式:

(?<=<title.*>)([\s\S]*)(?=</title>)

这将提取文档中标签之间的所有内容并忽略标签本身。但是,当尝试在 Python 中使用此正则表达式时,它会引发以下异常:

Traceback (most recent call last):  
File "test.py", line 21, in <module>
pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
File "C:\Python31\lib\re.py", line 205, in compile
return _compile(pattern, flags)
File "C:\Python31\lib\re.py", line 273, in _compile
p = sre_compile.compile(pattern, flags) File
"C:\Python31\lib\sre_compile.py", line 495, in compile
code = _code(p, flags) File "C:\Python31\lib\sre_compile.py", line 480, in _code
_compile(code, p.data, flags) File "C:\Python31\lib\sre_compile.py", line 115, in _compile
raise error("look-behind requires fixed-width pattern")
sre_constants.error: look-behind requires fixed-width pattern

我使用的代码是:

pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

如果我做一些最小的调整,它就会起作用:

pattern = re.compile('(?<=<title>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

但是,这不会考虑由于某种原因具有属性或类似属性的潜在 html 标题。

有人知道解决此问题的好方法吗?任何提示表示赞赏。

最佳答案

放弃使用正则表达式解析 HTML 的想法,改用实际的 HTML 解析库。快速搜索后,我找到了 this one .这是一种从 HTML 文件中提取信息的更安全的方法。

请记住,HTML 不是一种常规语言,因此从根本上说,正则表达式是从中提取信息的错误工具。

关于Python 正则表达式后视需要固定宽度的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2613237/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com