gpt4 book ai didi

python - BeautifulSoup:提取 img alt 数据

转载 作者:搜寻专家 更新时间:2023-10-31 22:15:22 27 4
gpt4 key购买 nike

我有以下图像 html,我正在尝试解析 alt 中的信息。目前我能够成功提取图像。

html(我目前解析的内容

<img class="rslp-p" alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver" src="http://i.ebayimg.com/00/$(KGrHqZ,!j!E5dyh0jTpBO(3yE7Wg!~~_26.JPG?set_id=89040003C1" itemprop="image" />

我根据解析的内容构建图像名称:

当前代码

def main(url, output_folder="~/images"):
"""Download the images at url"""
soup = bs(urlopen(url))
parsed = list(urlparse.urlparse(url))
count = 0
for image in soup.findAll("img"):
print image
count += 1
print count
print "Image: %(src)s" % image
image_url = urlparse.urljoin(url, image['src'])
filename = image["src"].split("/")[-1].split("?")[0].replace("$",'').replace(".JPG",".jpg").replace("~~_26",str(count)).lstrip("(")
parsed[2] = image["src"]
outpath = os.path.join(output_folder, filename)
urlretrieve(image_url, outpath)

我想做的是提取

alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver"

我还想在提取图像时使用 alt 数据作为文件名。

最佳答案

在你的 for 循环中,你可以通过简单的方式获得它

image.get('alt', '')

这在 BeautifulSoup's documentation 中有解释(“标签的属性”)。

关于python - BeautifulSoup:提取 img alt 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11696745/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com