gpt4 book ai didi

Python字符串操作,提取html标签之间的文字

转载 作者:太空狗 更新时间:2023-10-29 15:25:18 25 4
gpt4 key购买 nike

我有一个字符串:

<font face="ARIAL,HELVETICA" size="-2">  
JUL 28 </font>

(它输出两行,所以那里必须有一个\n。

我想提取 <font></font> 之间的字符串标签。在这种情况下,它是 7 月 28 日,但它可能是另一个日期或其他一些数字。

1) 从字体标签之间提取值的最佳方法?我在想我可以提取 "> 之间的所有内容和 </ .

编辑:删除了第二个问题。

最佳答案

虽然可以使用正则表达式解析任意 HTML,但这通常是一个死亡陷阱。有很多很棒的工具可以解析 HTML,包括 BeautifulSoup ,这是一个 Python 库,可以很好地处理 损坏的 以及良好的 HTML。

>>> from BeautifulSoup import BeautifulSoup as BSHTML
>>> BS = BSHTML("""
... <font face="ARIAL,HELVETICA" size="-2">
... JUL 28 </font>"""
... )
>>> BS.font.contents[0].strip()
u'JUL 28'

然后你只需要解析日期:

>>> datetime.strptime(BS.font.contents[0].strip(), '%b %d')
>>> datetime.datetime(1900, 7, 28, 0, 0)
datetime.datetime(1900, 7, 28, 0, 0)

关于Python字符串操作,提取html标签之间的文字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7911504/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com