gpt4 book ai didi

python - 如何制作可以下载带有各自URL的图像的图像爬虫

转载 作者:行者123 更新时间:2023-12-01 09:30:53 25 4
gpt4 key购买 nike

我正在开展一个项目,我需要互联网上可用的图像数据集及其 URL。为此,我必须下载几千个。的图像。因此,我计划从图像托管网站下载图像,例如 https://www.pexels.com/ , https://pixabay.com/以及 Flickr 等其他类似网站。

"""
dumpimages.py
Downloads all the images on the supplied URL, and saves them to the
specified output file ("/test/" by default)

Usage:
python dumpimages.py http://example.com/ [output]
"""
from bs4 import BeautifulSoup as bs
from urllib.request import (
urlopen, urlparse, urlunparse, urlretrieve)
import os
import sys

def main(url, out_folder="/test/"):
"""Downloads all the images at 'url' to /test/"""
soup = bs(urlopen(url))
parsed = list(urlparse(url))

for image in soup.findAll("img"):
print("Image: %(src)s" % image)
filename = image["src"]
# filename = filename.replace("/","|")
filename = image["src"].split("/")[-1]
parsed[2] = image["src"]
outpath = os.path.join(out_folder, filename)
if image["src"].lower().startswith("http"):
urlretrieve(image["src"], outpath)
else:
urlretrieve(urlunparse(parsed), outpath)

def _usage():
print("usage: python imgcrawl.py http://example.com [outpath]")

if __name__ == "__main__":
url = sys.argv[-1]
out_folder = "/test/"
if not url.lower().startswith("http"):
out_folder = sys.argv[-1]
url = sys.argv[-2]
if not url.lower().startswith("http"):
_usage()
sys.exit(-1)
main(url, out_folder)
为此,我编写了一个简单的 python 脚本,如上所示,它在提供网页 URL 作为输入时获取网页中可用的所有图像,但我想以这样的方式进行:如果我提供主页然后它可以下载该网站上的所有可用图像。如果有任何其他替代方法可以获取带有 URL 数据的图像,那么我将非常感谢您的帮助。

最佳答案

很高兴地说我在 Python 中做了完全相同的事情。看看我在 github 上的仓库 https://github.com/digitaldreams/image-crawler-python

关于python - 如何制作可以下载带有各自URL的图像的图像爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49974970/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com