gpt4 book ai didi

python - 在Python中将SRC属性与汤返回隔离

转载 作者:行者123 更新时间:2023-12-01 01:43:17 26 4
gpt4 key购买 nike

我正在使用 Python3 和 BeautifulSoup 从网页中获取特定的 div。我的最终目标是从该 div 中获取 img src 的 url,以便我可以将其传递给 pytesseract 以从图像中获取文本。

img 没有任何类或唯一标识符,所以我不确定如何使用 BeautifulSoup 每次只获取此图像。还有其他几幅图像,它们的顺序每天都在变化。因此,我只得到了图像周围的整个 div。 div 信息不会改变并且是唯一的,所以我的代码如下所示:

weather_today = soup.find("div", {"id": "weather_today_content"})

因此我的脚本当前返回以下内容:

<div class="style3" id="weather_today_content">
<img alt="" src="/database/img/weather_today.jpg?ver=2018-08-01" style="width: 400px"/>
</div>

现在我只需要弄清楚如何将 src 提取到字符串中,以便将其传递给 pytesseract 来下载并使用 ocr 提取更多信息。

我不熟悉正则表达式,但被告知这是最好的方法。任何帮助将不胜感激。谢谢。

最佳答案

在您找到的“div”元素中找到“img”元素,然后从中读取属性“src”。

from bs4 import BeautifulSoup

html ="""
<html><body>
<div class="style3" id="weather_today_content">
<img alt="" src="/database/img/weather_today.jpg?ver=2018-08-01" style="width: 400px"/>
</div>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
weather_today = soup.find("div", {"id": "weather_today_content"})
print (weather_today.find('img')['src'])

输出:

/database/img/weather_today.jpg?ver=2018-08-01

关于python - 在Python中将SRC属性与汤返回隔离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51657210/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com