python - 如何使用 Python 从网站下载所有 Zip 文件-6ren

python - 如何使用 Python 从网站下载所有 Zip 文件

转载作者：行者123 更新时间：2023-12-05 07:41:22

25

4

我正在尝试从这里下载所有压缩文件:https://www.google.com/googlebooks/uspto-patents-grants-text.html网页。

恕我直言，我不是专业的程序员，所以如果我犯了一些愚蠢的错误，请原谅我。

这是我的代码:

from bs4 import BeautifulSoup            
import requests

url = "https://www.google.com/googlebooks/uspto-patents-grants-text.html"
html = requests.get(url)
soup = BeautifulSoup(html.text, "html.parser")

for link in soup.find_all('a', href=True):
    href = link['href']

    if any(href.endswith(x) for x in ['.zip']):
    #if any(href.endswith('.zip')):
        print("Downloading '{}'".format(href))
        remote_file = requests.get(url + href)

        with open(href, 'wb') as f:
            for chunk in remote_file.iter_content(chunk_size=1024): 
                if chunk: 
                    f.write(chunk)

运行代码时出现的错误是:文件“C:/Users/#USER#/#FILEPATH#/Python/patentzipscraper2.py”，第 16 行，位于用 open(href, 'wb') 作为 f:OSError:[Errno 22] 无效参数:http://storage.googleapis.com/patents/grant_full_text/2015/ipg150106.zip '

但是，当我在浏览器中输入该地址时，我可以下载压缩文件。我猜这与压缩文件的格式有关，我不一定能直接下载/打开它们，但我不确定是什么。我以此为基础的代码是下载你可以直接下载的文件(比如 .txt)

如能提供有关如何下载这些 zip 的任何帮助，我们将不胜感激。

最佳答案

在您的代码中实现如下内容:

import urllib

archive = urllib.request.URLopener()
archive.retrieve("http://yoursite.com/file.zip", "file.zip")

关于python - 如何使用 Python 从网站下载所有 Zip 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45355760/

25

4

0

文章推荐： angular - 基于 dataItem 设置 kendo-grid-column 类

文章推荐： UDAF 与 Spark 中聚合器的性能

zip - 如何在没有目录的情况下提取 7-zip zip 文件
我有这个命令: 7z e -oD:\Data\ODS_Source\* D:\Data\DATA_DROP\Source.zip 这导致 D:\Data\ODS_Source\Source\. 我需要
zip - 使用 Ionic Zip 将 zip 中的文件夹解压到另一个目录的根目录(不包含 zip 中包含的文件夹)
我正在尝试让 Ionic zip 将 zip 文件内的文件夹提取到指定的根目录中。我的问题是里面的zip文件是“zipfile.zip\some_folder\”。我想将“some_folder”中的
zip - 使用 Ionic Zip 将 zip 中的文件夹解压缩到另一个目录的根目录(没有 zip 中包含的文件夹)
我试图让 Ionic zip 将 zip 文件中的文件夹提取到指定的根目录中。我的问题是里面的 zip 文件是“zipfile.zip\some_folder\”。我想将“some_folder”中的
zip-zip(子函数调用)
题目监听服务器端口，得到题目如下：源码解析主函数主函数中是题目界面的逻辑，对应于用户的选择做出相应的操作，其中需要注意的是选项2，解压操作需要获得root权
zip - zip /7zip压缩差异
我有许多需要分发给用户的zip文件，其中约有130个。每个zip文件都包含许多相似的文本，html，xml和jpg文件。压缩文件总计146兆字节；解压缩后，其内容总计551mb。我想将所有这些文件以
zip - 如何使用 zip.js 将多个文件添加到一个 zip 中？
我正在使用 javascript zip.js图书馆。我到处搜索，但找不到将多个文件添加到 zip 的示例。这是我的代码，但它生成了一个“损坏的”zip。 var len = results.row
c# - 尝试从内部 Zip 文件(另一个 Zip 中的 Zip)获取流时出现 "Cannot Read That as a Zip File"异常
在 C# 中，我使用的是 DotNetZip我有一个名为“innerZip.zip”的 zip，其中包含一些数据，和另一个名为“outerZip.zip”的 zip，其中包含 innerZip。我为什
R:获取有关使用 zip::zipr() 而不是 zip::zip() 的注意事项 - 是否值得关注？
当我使用 library(xlsx) 中的 write.xlsx 时，控制台中会出现以下内容: Note: zip::zip() is deprecated, please use zip::zipr
zip - WinXP 的 "Send to Compressed (zipped) Folder"如何决定在 zip 文件中包含什么？
如果我因为问“非编程”问题而被拒绝，我不会太惊讶，但也许有人知道...... 我正在使用 WinXP 的内置“发送到压缩(zipped)文件夹”功能压缩我的 subversion 沙箱的内容，并惊讶地
zip - 解压缩 Zip 压缩的二进制字符串
我在 Elixir 中有一个二进制字符串，它由压缩字节组成，我想放气并从中提取“真实数据”: iex(93)> data > 我不确定如何解压缩这些数据。到目前为止，我已经: 浏览了 Official
zip - 如何使用数据描述符部分创建 zip 文件
有没有一种方法可以创建一个 zip 文件并强制它在命令行中包含数据描述符部分？最佳答案在 Github ( https://github.com/adamhathcock/sharpcompres
zip - 在黑莓的代码签名过程中，我应该如何备份运动注册信息(.zip)？
我已经有 PBDT.csj and RDK.csj使用此 ( https://www.blackberry.com/SignedKeys/codesigning.html ) 链接进行代码签名处理后的
zip - 如何在 zip 文件中添加注释
我研究了几天，发现我们可以将一个包含一些内容的文件添加到 zip 文件中，然后再次压缩它。然后注释将被添加到 zip 文件中，但我不知道该文件到底是什么，所以任何人都知道向 zip(压缩)文件添加注释
zip - 如何找到 zip 文件的压缩级别？
我想知道如何找到 zip 文件的压缩级别。 7z 和 winzip 制作的 Zip 文件具有不同的级别评级，因此我想将其中的一些映射到其他工具中的相应级别。 store level 或 level 0
zip - zip mime类型，何时选择哪一个
到目前为止，对于Zip文件的Mime类型，我已经看到: 应用程序/八位字节流 multipart / x-zip 应用程序/ zip 应用程序/ zip压缩的应用程序/ x-zip压缩的我想我的问
zip - 标准 ZIP 使用哪种算法？
我已经在 google 上搜索、在 wiki 上搜索并阅读了 ZIP 的 RFC，但找不到有关 ZIP 中使用的确切算法的任何信息。我找到了有关 ZIP == TAR + GZIP 的信息但是，我
zip - 尝试在命令行中静默执行自解压 zip 文件
我有这些自解压 zip 文件，我正试图在 2008/7 机器上远程解压这些文件。但它们是以 .exe 的方式出现的，它需要用户双击并选择提取位置。在 WinZip 支持网站上，他们说要使用/auto
C# - 如何使用 7-zip 库(即不是 .7z，而是 .zip)创建常规 ZIP 存档？
这是我在这里的第一个问题，请耐心等待。我的目标是在 C# 中创建一个基本的 .zip 存档。我已经尝试使用 .NET 的内置 GZipStream 类并设法实现了这一点，但是我遇到了一个问题，我无法
java - zip 文件内的 zip 文件的文件系统
能否为压缩文件中的压缩文件创建 java.nio.file.FileSystem？如果是这样，URI 是什么样的？如果没有，我想我将不得不退回到使用 ZipInputStream。我正在尝试递归
zip - zip 和 tgz 格式有什么区别？
我想在 here 安装 scala我很关心下载哪一个:zip 还是 tgz。它们之间有什么区别，用例是什么？最佳答案它们是不同的archive formats .使用它们是因为它可以节省带宽并且因

首页

博学

6Ren·AI

商城

python - 如何使用 Python 从网站下载所有 Zip 文件