gpt4 book ai didi

python - 从 HTML 页面源下载图像文件

转载 作者:IT老高 更新时间:2023-10-28 21:43:23 25 4
gpt4 key购买 nike

我正在编写一个从 HTML 页面下载所有图像文件并将它们保存到特定文件夹的刮板。所有图像都是 HTML 页面的一部分。

最佳答案

这里有一些代码可以从提供的 URL 下载所有图像,并将它们保存在指定的输出文件夹中。您可以根据自己的需要进行修改。

"""
dumpimages.py
Downloads all the images on the supplied URL, and saves them to the
specified output file ("/test/" by default)

Usage:
python dumpimages.py http://example.com/ [output]
"""
from bs4 import BeautifulSoup as bs
from urllib.request import (
urlopen, urlparse, urlunparse, urlretrieve)
import os
import sys

def main(url, out_folder="/test/"):
"""Downloads all the images at 'url' to /test/"""
soup = bs(urlopen(url))
parsed = list(urlparse(url))

for image in soup.findAll("img"):
print("Image: %(src)s" % image)
filename = image["src"].split("/")[-1]
parsed[2] = image["src"]
outpath = os.path.join(out_folder, filename)
if image["src"].lower().startswith("http"):
urlretrieve(image["src"], outpath)
else:
urlretrieve(urlunparse(parsed), outpath)

def _usage():
print("usage: python dumpimages.py http://example.com [outpath]")

if __name__ == "__main__":
url = sys.argv[-1]
out_folder = "/test/"
if not url.lower().startswith("http"):
out_folder = sys.argv[-1]
url = sys.argv[-2]
if not url.lower().startswith("http"):
_usage()
sys.exit(-1)
main(url, out_folder)

编辑:您现在可以指定输出文件夹。

关于python - 从 HTML 页面源下载图像文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/257409/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com