python - 自动化无聊的东西 - 图像站点下载器-6ren

python - 自动化无聊的东西 - 图像站点下载器

转载作者：行者123 更新时间：2023-12-03 23:45:31

25

4

我正在从 Automate The Boring Stuff 书中编写一个项目。任务如下:
图片站点下载器
编写一个程序，访问像 Flickr 或 Imgur 这样的照片共享网站，
搜索一类照片，然后下载所有结果
图片。您可以编写一个程序，适用于任何具有
一个搜索功能。
这是我的代码:

import requests, bs4, os

# The outerHTML file which I got by rightClicking and copying the <html> tag on 'page source'
flickrFile=open('flickrHtml.html',encoding="utf8")

#Parsing the HTML document 
flickrSoup=bs4.BeautifulSoup(flickrFile,'html.parser')

# categoryElem is the Element which has image source inside
categoryElem=flickrSoup.select("a[class='overlay']")
#len(categoryElem)=849

os.makedirs('FlickrImages', exist_ok=True) 
for i in range(len(categoryElem)-1):
    
    # Regex searching for the href
    import re
    html=str(categoryElem[i])
    htmlRegex=re.compile(r'href.*/"')
    mo=htmlRegex.search(html)
    imageUrl=mo.group()

    imageUrl=imageUrl.replace('"','')
    imageUrl=imageUrl.replace('href=','')

    imageUrlFlickr="https://www.flickr.com"+str(imageUrl)

    # Downloading the response object of the Image URL
    res = requests.get(imageUrlFlickr)
    imageSoup=bs4.BeautifulSoup(res.text)
    picElem=imageSoup.select('div[class="view photo-well-media-scrappy-view requiredToShowOnServer"] img')

    # Regex searching for the jpg file in the picElem HTML element
    html=str(picElem)
    htmlRegex=re.compile(r'//live.*\.jpg')
    mo=htmlRegex.search(html)
    try:
        imageUrlRegex=mo.group()
    except Exception as exc:
        print('There was a problem: %s' % (exc))
    res1=requests.get('https:'+imageUrlRegex)
    try:
        res1.raise_for_status()
    except Exception as exc:
        print('There was a problem: %s' % (exc))  
    # Dowloading the jpg to my folder
    imageFile = open(os.path.join('FlickrImages', os.path.basename(imageUrlRegex)), 'wb')
    for chunk in res1.iter_content(100000):
        imageFile.write(chunk)

查了之后 this question ，我认为要下载图片“海”的所有 400 万个结果，我复制(如问题的答案中所述)整个 OuterHTML。如果我没有看这个问题，也没有复制完整的 HTML 源代码(在我的代码中，它存储在 flickrFile=open('flickrHtml.html',encoding="utf8") 中)，我最终会得到 categoryElem等于 24，因此只下载 24 张图片，而不是 849 张图片。

There are 4 million pictures, how do I download all of them, without having to download the HTML source to a separate file?

我正在考虑我的程序执行以下操作:

获取搜索的第一张图片的网址--> 下载图片--> 获取下一张图片的网址--> 下载图片.... 依此类推，直到没有任何东西可供下载。

我没有采用第一种方法，因为我不知道如何访问第一张图片的链接。我尝试获取它的 URL，但是当我检查“照片流”中第一张图片(或任何其他图片)的元素时，它给了我一个指向特定用户的“照片流”的链接，而不是一般“海上搜索照片流”。
Here is the link for the photo stream Search
如果有人也能帮我解决这个问题，那就太棒了。
Here is some code来自执行相同任务的人，但他只下载了前 24 张图片，这些图片显示在未渲染的原始 HTML 中

最佳答案

如果您想使用 requests + Beautfulsoup , 在下面试试这个(通过传递参数 page ):

import re, requests, threading, os
from bs4 import BeautifulSoup

def download_image(url):
    with open(os.path.basename(url), "wb") as f:
        f.write(requests.get(url).content)
    print(url, "download successfully")

original_url = "https://www.flickr.com/search/?text=sea&view_all=1&page={}"

pages = range(1, 5000) # not sure how many pages here

for page in pages:
    concat_url = original_url.format(page)
    print("Now it is page", page)
    soup = BeautifulSoup(requests.get(concat_url).content, "lxml")
    soup_list = soup.select(".photo-list-photo-view")
    for element in soup_list:
        img_url = 'https:'+re.search(r'url\((.*)\)', element.get("style")).group(1)
        # the url like: https://live.staticflickr.com/xxx/xxxxx_m.jpg
        # if you want to get a clearer(and larger) picture, remove the "_m" in the end of the url.
        # For prevent IO block,I create a thread to download it.pass the url of the image as argument.
        threading.Thread(target=download_image, args=(img_url,)).start()

如果使用 Selenium ，可能会更容易，示例代码如下:

from selenium import webdriver
import re, requests, threading, os

# download_image
def download_image(url):
    with open(os.path.basename(url), "wb") as f:
        f.write(requests.get(url).content)


driver = webdriver.Chrome()
original_url = "https://www.flickr.com/search/?text=sea&view_all=1&page={}"

pages = range(1, 5000) # not sure how many pages here

for page in pages:
    concat_url = original_url.format(page)
    print("Now it is page", page)
    driver.get(concat_url)
    for element in driver.find_elements_by_css_selector(".photo-list-photo-view"):
        img_url = 'https:'+re.search(r'url\(\"(.*)\"\)', element.get_attribute("style")).group(1)
        # the url like: https://live.staticflickr.com/xxx/xxxxx_m.jpg
        # if you want to get a clearer(and larger) picture, remove the "_m" in the end of the url.
        # For prevent IO block,I create a thread to download it.pass the url of the image as argument.
        threading.Thread(target=download_image, args=(img_url, )).start()

它在我的电脑上成功下载。

关于python - 自动化无聊的东西 - 图像站点下载器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63035100/

25

4

0

文章推荐： apache-spark - Spark缓存对优化逻辑计划的影响

文章推荐： python - 如何控制for循环层数？

文章推荐： networking - Gcloud 实例无法 ping 另一个实例

.htaccess - 将旧链接(HTML 站点)重定向到新页面(PHP 站点)
最近我用 php 建立了一个网站，但他们的旧网站都是 HTML 格式的。所以现在我不知道使用 .htaccess 将所有这些旧链接重定向到新站点(可能将所有带有 HTML 的链接重定向到主域)的最佳方
wordpress - 将 WordPress 站点 'A' 完全重定向到 WordPress 站点 'B'
我创建了一个新的 WordPress 网站，它是我旧网站的更名版本。它有一个新的域和一个新的设计。除此之外，其他一切都是相同的，包括内容和链接结构。现在我想完全重定向旧链接。与旧帖子一样，标签和类别
asp.net - 使用 WatiN 测试 ASP.NET 站点。是否可以在本地以编程方式部署 ASP.net 站点？
我想使用 WatiN测试我正在开发的网站的功能。理想情况下，我会在测试开始运行之前以编程方式部署网站 (asp.net MVC3)，然后在每次测试之前刷新数据。这可能吗？最佳答案在此处阅读有关使用
.net - 为什么即使页面的 EnableSessionState ="False"ASP.NET 仍然访问状态服务器，但仅适用于 VB.NET 站点，而不适用于 C# 站点？
我们的网站使用我们自己定制的 session 状态管理，与 ASP.NET session 状态分开。但是由于少数特殊页面使用 SQL Server Reporting Services，我们还需要启
带有工作示例的 JavaScript 站点
不久前我看到一个网站，其中有 JavaScript/HTML/CSS 栏目，下面有实际代码的样子。有点像 jsFiddle，但它有用户示例和演示。有谁知道这个网站的名字吗？我到处都找不到它!谢谢! 最
Sitecore 站点/项目发布在初始化时挂起
我们的核心数据库出现问题，该数据库已由前一天的备份数据库恢复。此后，网站工作正常，但我们在发布任何更改时遇到问题。一旦点击发布按钮，“发布正在初始化..”消息就会持续很长时间。截至“发布开始/结束”
Sitecore 站点/项目发布在初始化时挂起
我们的核心数据库出现问题，该数据库已由前一天的备份数据库恢复。此后，网站工作正常，但我们在发布任何更改时遇到问题。一旦点击发布按钮，“发布正在初始化..”消息就会持续很长时间。截至“发布开始/结束”
【Maven基础入门教程】Maven site(站点)
Maven 不仅仅是一款项目构建和依赖管理工具，它还能够聚合项目信息，促进项目团队间地交流。POM 中可以包含各种项目信息，例如：项目描述、SCM 地址、许可证信息，开发者信息等。用户可以使用 Mav
java - 抓取 Cloudflare 站点
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭上个月。 Improve this ques
.net - 面向公众的高流量 Silverlight 站点
您知道哪些网站正在使用 Silverlight？此信息将帮助我们决定何时采用 Silverlight 平台。这些网站应该是面向公众的并且被认为是高流量的。 (每月至少 300,000 次点击)。我
.net - 站点 DLL 似乎在发布时间歇性锁定
我尝试通过 VS2017 中的发布上下文菜单将我的 .net 核心站点部署到 Azure，偶尔(大约三分之一的部署)，我收到以下错误。 Web deployment task failed. (Web
django - 具有共享代码库和数据库的多个 Django 站点
我为 20 个不同的国家/地区创建了一个包含 20 个站点(每个站点一个不同的域)的 Django 项目。这些站点共享所有内容:代码库、数据库、网址、模板等。他们唯一不共享的是我在每个站点设置文件中
web - 将电子商务添加到 Jekyll 站点
如何将商店页面添加到我使用 jekyll 和基础构建的网站？任何自动化平台/方法都可以做到这一点。谢谢。最佳答案您可以使用 snipcart .有一个blog post和一个 demo sit
azure - 在服务结构上托管多个公共(public)站点
我部署了一个服务结构集群，域为 foo.northcentralus.cloudapp.azure.com 它具有单一节点类型和单一公共(public) IP 地址/负载均衡器。假设我部署了以下
typo3 - 在typo3中创建没有冗余文本的 "multilanguage"站点
我不是一个大的typ3 专家，也无法访问我正在使用的typ3 实例中的typoscript 选项(这是一个非常大的站点，我没有这样做的授权)。所以我希望这个问题适合 stackoverflow(如果没
Drupal 站点 - Memcache 连接错误
我们正在对我们的 Drupal 站点进行性能调整。我们正在使用 Siege 来衡量性能(作为 drupal 访问者)。环境: Nginx + FastCGI + Memcache Siege 运行
sharepoint - 批量复制文件到 SharePoint 站点
我搜索了 SO、SU 和 SP.SE寻求解决方案，但找不到我需要的东西。我正在寻找一个解决方案，它可能是一个脚本或一些其他非编码方法/工具。我正在尝试编写一个脚本(供其他人使用)或某种其他形式的自动
django - 搜索引擎如何看待本地化的 Django 站点？
我有一个 Django 站点，它使用本地化中间件与 gettext 和 trans/blocktrans 模板标签相结合，根据用户代理字符串中的首选语言向访问者显示不同的页面(这似乎是在 Django
deployment - 是否可以部署已构建的 Drupal 站点？
我是 Drupal 新手。是否可以设置所有内容并在服务器上部署 Drupal？我的意思是像放入内容、设置模块等...，然后将它们全部放到生产服务器上？最佳答案当然。复制所有文件编辑数据库凭证(
jekyll - 有没有办法检查本地是否正在提供 jekyll 站点？
我想将以下行添加到我的 head.html仅在运行时 jekyll serve本地: 如果可能的话，我正在考虑使用一些简单的液体检查。最佳答案当你做 jekyll serve本地默认 {{

首页

博学

6Ren·AI

商城

python - 自动化无聊的东西 - 图像站点下载器