python - 下载和解压缩 .zip 文件而不写入磁盘-6ren

python - 下载和解压缩 .zip 文件而不写入磁盘

转载作者：IT老高更新时间：2023-10-28 21:38:08

25

4

我已经设法让我的第一个 python 脚本工作，它从 URL 下载 .ZIP 文件列表，然后继续提取 ZIP 文件并将它们写入磁盘。

我现在不知如何实现下一步。

我的主要目标是下载和解压缩 zip 文件并通过 TCP 流传递内容(CSV 数据)。如果可以的话，我宁愿不实际将任何 zip 或解压缩文件写入磁盘。

这是我当前工作的脚本，但不幸的是必须将文件写入磁盘。

import urllib, urllister
import zipfile
import urllib2
import os
import time
import pickle

# check for extraction directories existence
if not os.path.isdir('downloaded'):
    os.makedirs('downloaded')

if not os.path.isdir('extracted'):
    os.makedirs('extracted')

# open logfile for downloaded data and save to local variable
if os.path.isfile('downloaded.pickle'):
    downloadedLog = pickle.load(open('downloaded.pickle'))
else:
    downloadedLog = {'key':'value'}

# remove entries older than 5 days (to maintain speed)

# path of zip files
zipFileURL = "http://www.thewebserver.com/that/contains/a/directory/of/zip/files"

# retrieve list of URLs from the webservers
usock = urllib.urlopen(zipFileURL)
parser = urllister.URLLister()
parser.feed(usock.read())
usock.close()
parser.close()

# only parse urls
for url in parser.urls: 
    if "PUBLIC_P5MIN" in url:

        # download the file
        downloadURL = zipFileURL + url
        outputFilename = "downloaded/" + url

        # check if file already exists on disk
        if url in downloadedLog or os.path.isfile(outputFilename):
            print "Skipping " + downloadURL
            continue

        print "Downloading ",downloadURL
        response = urllib2.urlopen(downloadURL)
        zippedData = response.read()

        # save data to disk
        print "Saving to ",outputFilename
        output = open(outputFilename,'wb')
        output.write(zippedData)
        output.close()

        # extract the data
        zfobj = zipfile.ZipFile(outputFilename)
        for name in zfobj.namelist():
            uncompressed = zfobj.read(name)

            # save uncompressed data to disk
            outputFilename = "extracted/" + name
            print "Saving extracted file to ",outputFilename
            output = open(outputFilename,'wb')
            output.write(uncompressed)
            output.close()

            # send data via tcp stream

            # file successfully downloaded and extracted store into local log and filesystem log
            downloadedLog[url] = time.time();
            pickle.dump(downloadedLog, open('downloaded.pickle', "wb" ))

最佳答案

以下是我用来获取压缩 csv 文件的代码片段，请看一下:

Python 2:

from StringIO import StringIO
from zipfile import ZipFile
from urllib import urlopen

resp = urlopen("http://www.test.com/file.zip")
myzip = ZipFile(StringIO(resp.read()))
for line in myzip.open(file).readlines():
    print line

Python 3:

from io import BytesIO
from zipfile import ZipFile
from urllib.request import urlopen
# or: requests.get(url).content

resp = urlopen("http://www.test.com/file.zip")
myzip = ZipFile(BytesIO(resp.read()))
for line in myzip.open(file).readlines():
    print(line.decode('utf-8'))

这里 file 是一个字符串。要获取您想要传递的实际字符串，您可以使用 zipfile.namelist()。例如，

resp = urlopen('http://mlg.ucd.ie/files/datasets/bbc.zip')
myzip = ZipFile(BytesIO(resp.read()))
myzip.namelist()
# ['bbc.classes', 'bbc.docs', 'bbc.mtx', 'bbc.terms']

关于python - 下载和解压缩 .zip 文件而不写入磁盘，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5710867/

25

4

0

文章推荐： c++ - 推断仿函数返回类型的通用方法？

文章推荐： c++ - 如何扩展词法转换以支持枚举类型？

文章推荐： android - 如何将可绘制的形状与图像一起使用？

java - 服务器启动后将Ehcache的缓存数据写入本地文件(磁盘)，重新启动时应从文件(磁盘)中获取数据
我在服务器启动时创建一个缓存(服务器启动每次都需要10分钟)。目前我正在使用内存缓存(Ehcache)。现在我想建立一个机制，以便一旦数据被缓存我应该能够在几秒钟内启动服务器。比如将缓存的持久副本写入
JSON 磁盘/内存大小比率
我编写 json 结构的方式使得文件(在进行了一个月的测量后)存储在磁盘上时仍然只有 100 MB 左右。但是现在文件大约是 20mb，但我看到我的脚本需要的内存大约是 200/300 mb。显然，脚
solaris挂载windows fat32 磁盘
Solaris9 x86下如何挂载和永久挂载windows fat32分区临时挂载Shell 命令; mout –F pcfs /dev/dsk/c1d0p0:c /mnt/c mount
azure - 磁盘 ID 中的资源组名称不区分大小写
磁盘ID中的资源组名称大小写不敏感。重现此问题的步骤 - 在 Azure 中创建独立磁盘，检查 ID。对于例如 -“/subscriptions/subscriptionID/resourceGrou
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
assembly - 磁盘 IO 操作在内核级程序集中通常如何看待？
在用户态中，执行磁盘 IO 就像链接 C 库一样简单，或者，如果您喜欢冒险，可以直接执行系统调用。我想知道内核本身是如何执行 IO 的。换句话说，假设我在裸机上以特权模式运行应用程序。我将如何访问通
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
laravel - 磁盘 [视频] 没有配置的驱动程序
我正在尝试使用 laravel 和 ffmpeg 创建缩略图。但是我收到了这个错误。磁盘 [视频] 没有配置驱动程序。我的代码 public function index() { FFMp
c++ - 如何像winhex一样直接读/写usb(磁盘)？
我的目标是读/写 usb。首先必须打开并读取 usb 低级别，如“程序” 我使用 visual c++ 和 winAPI 下面是我的测试代码 char path[64]; sprintf(path,
c - 磁盘 I/O 的内核缓冲区缓存何时为空？
内核缓冲区缓存何时为空？这似乎不是 LINE Buffering。如果我写 () 一个没有换行符的字符串，它会立即输出到文件。另外，socket文件的输入输出缓冲区是否也像Disk I/O一样使用内
linux - 使用命令加载 RAM 磁盘
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
linux - 磁盘 I/O 基准测试
我有一个大型调用中心，有 250 个并发调用。队列日志的队列应用程序平面文件。该系统使用 Asterisk 和 Queuemetrics。两个服务都在同一台服务器上运行。规范为 16 核和 64 GB
Centos 磁盘 LVM 扩展
我在使用安装了 Centos7 的 VMWare VM 时遇到问题。 lsblk 命令给出如下内容 df -h 给出这个我正在尝试将 root lvm 扩展到分区，但无论我如何尝试都无法做到这一点。
java - 磁盘 I/O 算法的运行时间
在基于内存的计算模型中，通过考虑数据结构，可以抽象地完成唯一需要进行的运行时计算。但是，关于高性能磁盘 I/O 算法的文档并不多。因此，我提出了以下一组问题: 1) 我们如何估计磁盘 I/O 操作的
windows - 如何以编程方式创建 RAM 磁盘？
我不是在寻找调用命令行实用程序的代码，它可以解决问题。我实际上很想知道用于创建 RAM 磁盘的 API。编辑动机:我有一个第三方库，它需要一个目录名，以便以某种方式处理该目录中的文件。我将这些文件
mysql 磁盘 I/O 100%
MySQL 数据库显示磁盘 I/O 利用率持续保持在 100% 左右。数据库服务器有 24 GB 内存。我们尝试优化查询，但效果不佳。请检查如下所示的当前配置参数: 参数当前值 key_buff
database - 组合缓存方法 - 基于内存缓存/磁盘
这是交易。我们本可以采用完全静态 html 的方式来解决性能问题，但由于该站点将是部分动态的，因此这对我们来说行不通。我们想到的是使用 memcache + eAccelerator 来加速 PHP
c# - 内存映射文件与 RAM 磁盘
对于游戏 Minecraft，运行服务器应用程序时的一般方法是在 RAMDisk 中运行它，因为它使用数百个小文件来生成世界，I/O 速度是主要瓶颈。在最近的尝试中，我尝试使用 Dokan/ImDi
c - 磁盘 I/O 期间幕后发生了什么？
当我查找文件中的某个位置并写入少量数据(20 字节)时，幕后发生了什么？我的理解据我所知，可以从磁盘写入或读取的最小数据单位是一个扇区(传统上是 512 字节，但该标准现在正在改变)。这意味着要写
go - 如何使用golang获取xen服务器内存、磁盘、网络和CPU信息？
如何使用golang获取xen服务器的内存、磁盘、网络和cpu信息？是否有任何可用的软件包？最佳答案与其他服务器有什么不同？如果没有 - 有一堆 Go 包可以做到这一点，我正在使用这个 - ht

首页

博学

6Ren·AI

商城

python - 下载和解压缩 .zip 文件而不写入磁盘