gpt4 book ai didi

Python 正则表达式字符串提取

转载 作者:太空宇宙 更新时间:2023-11-04 08:19:51 24 4
gpt4 key购买 nike

我正在尝试使用正则表达式从此字符串中提取两个字符串 -

'<img src="http://images.efollett.com/books/978/047/012/9780470129296.gif" width="80" height="100" alt="Organic Chemistry I (as Second Language)" />'

我想要 src 之后的 URL 和 alt 之后的文本(所以有机化学 I(作为第二语言))和 url)

我试过了 ('<img src=(\w+)" width') , ('<img src="(\w+)"')('src="(\w+)"\swidth') ,对于 url 和所有返回空。

我也试过 ('alt="(\w+)"')为了名字,再一次,运气不好。

有人可以帮忙吗?

最佳答案

使用lxml .

import lxml.html

html_string = '<img src="http://images.efollett.com/books/978/047/012/9780470129296.gif" width="80" height="100" alt="Organic Chemistry I (as Second Language)" />'

img = lxml.html.fromstring(html_string)

print "src:", img.get("src")
print "alt:", img.get("alt")

给予:

src: http://images.efollett.com/books/978/047/012/9780470129296.gifalt: Organic Chemistry I (as Second Language)

关于Python 正则表达式字符串提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7384275/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com