gpt4 book ai didi

python - python中的复杂解析

转载 作者:行者123 更新时间:2023-11-28 20:27:04 25 4
gpt4 key购买 nike

我对 python 有一个奇怪的解析问题。我需要解析以下文本。

这里我只需要(不包括)“pre”标签和数字列(从 205 4 164 开始)之间的部分。我有几个这种格式的页面。

<html>
<pre>


A Short Study of Notation Efficiency

CACM August, 1960

Smith Jr., H. J.

CA600802 JB March 20, 1978 9:02 PM

205 4 164
210 4 164
214 4 164
642 4 164
1 5 164

</pre>
</html>

最佳答案

Quazi,这需要一个正则表达式,特别是 <pre>(.+?)(?:\d+\s+){3}启用 DOTALL 标志。

您可以在 http://docs.python.org/library/re.html 找到有关如何在 Python 中使用正则表达式的信息如果你做了很多这种字符串提取,你会很高兴你做了。逐个检查我提供的正则表达式:

<pre>直接匹配pre标签
(.+?)匹配并捕获任何字符
(?:\d+\s+){3}匹配一些数字后跟一些空格,连续三次

关于python - python中的复杂解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10080944/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com