python - 在 AWS S3 中分块创建大型 zip 文件-6ren

python - 在 AWS S3 中分块创建大型 zip 文件

转载作者：行者123 更新时间：2023-12-03 14:06:36

29

4

所以，这个问题最终都是关于 python 和 S3 的。
假设我有一个包含这些文件的 S3 存储桶:

file1 --------- 2GB
file2 --------- 3GB
file3 --------- 1.9GB
file4 --------- 5GB

这些文件是使用 S3 的预签名帖子 URL 上传的
我需要做的是让客户端能够将它们全部下载到 ZIP(或类似文件)中，但我无法在内存中或服务器存储中执行此操作，因为这是无服务器设置。
根据我的理解，理想情况下服务器需要:

在 S3 上启动 multipartupload 作业

可能需要向 multipart 作业发送一个块作为 zip 文件的标题；

以某种流的形式逐块下载存储桶中的每个文件，以免溢出
内存

使用上面的流创建一个 zip 块并将其发送到多部分作业

完成多部分作业和 zip 文件

现在，老实说，我不知道如何实现这一目标，甚至不知道是否有可能，但有些问题是:

如何在 S3 中分块下载文件？最好使用 boto3 或 botocore

如何在释放内存的同时分块创建 zip 文件？

如何在 multipartupload 中连接这一切？

编辑:现在我想了想，也许我什至不需要将 ZIP 文件放在 S3 中，我可以直接流式传输到客户端，对吗？那实际上会好得多
这是假设我在上面进行编辑的一些假设代码:

  #Let's assume Flask
  @app.route(/'download_bucket_as_zip'):
  def stream_file():
    def stream():
      #Probably needs to yield zip headers/metadata?
      for file in getFilesFromBucket():
         for chunk in file.readChunk(4000):
            zipchunk = bytesToZipChunk(chunk)
            yield zipchunk
    return Response(stream(), mimetype='application/zip')

最佳答案

你的问题非常复杂，因为解决它会让你陷入很多困境。
我相信 Rahul Iyer 走在正确的轨道上，因为恕我直言，启动新的 EC2 实例并压缩此实例上的文件并将它们移回仅向客户端提供 zip 文件的 S3 存储桶会更容易。
如果您的文件较小，您可以使用 AWS Cloudfront 在客户端请求文件时处理压缩。
在我的研究过程中，我确实注意到其他语言，例如 .Net 和 Java，有处理流式传输到 zip 文件的 API。我还查看了 zipstream，它已经 fork 了好几次。目前尚不清楚 zipstream 如何用于流式传输文件以进行压缩。
下面的代码将分块文件并将夹头写入 zip 文件。输入文件接近 12Gbs，输出文件接近 5Gbs。
在测试期间，我没有看到内存使用或大峰值的任何重大问题。
我确实在下面的一篇文章中添加了一些伪 S3 代码。我认为需要进行更多测试才能了解此代码如何处理 S3 中的文件。

from io import RawIOBase
from zipfile import ZipFile
from zipfile import ZipInfo
from zipfile import ZIP_DEFLATED

# This module is needed for ZIP_DEFLATED
import zlib


class UnseekableStream(RawIOBase):
def __init__(self):
    self._buffer = b''

def writable(self):
    return True

def write(self, b):
    if self.closed:
        raise ValueError('The stream was closed!')
    self._buffer += b
    return len(b)

def get(self):
    chunk = self._buffer
    self._buffer = b''
    return chunk


def zipfile_generator(path, stream):
   with ZipFile(stream, mode='w') as zip_archive:
       z_info = ZipInfo.from_file(path)
       z_info.compress_type = ZIP_DEFLATED
       with open(path, 'rb') as entry, zip_archive.open(z_info, mode='w') as dest: 
          for chunk in iter(lambda: entry.read(16384), b''): # 16384 is the maximum size of an SSL/TLS buffer.
             dest.write(chunk)
             yield stream.get()
 yield stream.get()


stream = UnseekableStream()
# each on the input files was 4gb
files = ['input.txt', 'input2.txt', 'input3.txt']
with open("test.zip", "wb") as f:
   for item in files:
      for i in zipfile_generator(item, stream):
         f.write(i)
         f.flush()
stream.close()
f.close()

伪代码 s3/邮政编码
这段代码是严格假设的，因为它需要测试。

from io import RawIOBase
from zipfile import ZipFile
from zipfile import ZipInfo
from zipfile import ZIP_DEFLATED
import os

import boto3

# This module is needed for ZIP_DEFLATED
import zlib

session = boto3.Session(
aws_access_key_id='XXXXXXXXXXXXXXXXXXXXXXX',
aws_secret_access_key='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
region_name='XXXXXXXXXX')

s3 = session.resource('s3')
bucket_name = s3.Bucket('bucket name')

class UnseekableStream(RawIOBase):
   def __init__(self):
      self._buffer = b''

   def writable(self):
      return True

   def write(self, b):
      if self.closed:
        raise ValueError('The stream was closed!')
    self._buffer += b
    return len(b)

    def get(self):
      chunk = self._buffer
      self._buffer = b''
      return chunk


def zipfile_generator(path, stream):
   with ZipFile(stream, mode='w') as zip_archive:
       z_info = ZipInfo.from_file(path)
       z_info.compress_type = ZIP_DEFLATED
       with open(path, 'rb') as entry, zip_archive.open(z_info, mode='w') as dest:
           for chunk in iter(lambda: entry.read(16384), b''):
            dest.write(chunk)
              yield stream.get()
    yield stream.get()


stream = UnseekableStream()
with open("test.zip", "wb") as f:
   for file in bucket_name.objects.all():
     obj = s3.get_object(Bucket=bucket_name, Key=file.key)
     for i in zipfile_generator(obj.get(), stream):
        f.write(i)
        f.flush()
stream.close()
f.close()

关于python - 在 AWS S3 中分块创建大型 zip 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63524814/

29

4

0

文章推荐： python - Pandas DataFrame 填充列中的缺失值

文章推荐： python - imblearn 管道是否会关闭采样以进行测试？

文章推荐： R Blogdown Hugo 学术主题未渲染站点

WCF 分块/流媒体
我正在使用 WCF 并希望将大文件从客户端上传到服务器。我已经调查并决定遵循 http://msdn.microsoft.com/en-us/library/aa717050.aspx 中概述的分块方
http - 传输编码:分块
我试图了解有关 Transfer-Encoding:chunked 的更多信息。引用了一些文章: http://zoompf.com/blog/2012/05/too-chunky和 "Transfe
hdf5 - 分块 HDF5 数据集和slabsize
我们正在评估 HDF5 在分块数据集方面的性能。特别是我们试图弄清楚是否可以跨不同的连续块进行读取以及这样做会如何影响性能？例如。我们有一个块大小为 10 的数据集，一个有 100 个值的数据集，
php - 如何从闭包中终止 Eloquent 分块
使用 Eloquent，如何根据 chunk 中的条件终止分块函数的关闭？我试过返回，但这似乎只终止当前块而不是所有块。此时，我想停止从数据库中检索记录。 $query->chunk(self::CH
javascript - plupload:从头开始重新上传(分块)
有没有办法在不删除所选文件的情况下重新启动 plupload 上传？ plupload.stop() 停止上传，但如果我使用 start() 再次启动上传，它会从上次停止的地方继续。相反，我希望它再次
python - 连接两个大文件而不用 pandas 分块
我有带有“id，名称”的文件1和带有“id，地址”的文件2。我无法加载第一个文件(小于 2Gb):它在 76k 行(带有 block 连接)和只有 2 列后崩溃...我也无法在第二个文件上 read_
javascript - Servlet/Javascript 分块
我正在尝试从头开始设计一个系统，我想在其中通过 servlet 加载文本行。生产线的生产需要一些时间。因此，我希望能够在它们到达时在我的浏览器中逐步显示它们，一次显示几个。我想从 javascript
android - 分块 Web 服务响应
能否请您提供一个示例，说明如何在 Android 中读取来自 Web 服务的分块响应谢谢编辑:我尝试调用一个 soap 网络服务，它用代表图像的 base64 编码字符串回复我代码如下: Str
algorithm - 分块 map 的数据结构
我想制作一个无限平铺 map ，从(-max_int,-max_int)到(max_int,max_int)，所以我要制作一个基本结构: chunk，每个 chunk 包含 char tiles[w]
php - 如果已发送部分响应(分块)，如何将浏览器发送到错误页面
这是一个典型的场景:评估一个页面，并且有一个缓冲区 - 一旦缓冲区已满，评估的页面部分就会发送到浏览器。这使用 HTTP 1.1 分块编码。但是，其中一个 block 中可能会发生错误(在第一个 b
python - 与 nltk 分块
如何从给定模式的句子中获取所有 block 。例子 NP:{} 标记的句子: [("money", "NN"), ("market", "NN") ("fund", "NN")] 如果我解析我得到 (
Python 分块 CSV 文件多处理
我正在使用以下代码将 CSV 文件拆分为多个 block (来自 here) def worker(chunk): print len(chunk) def keyfunc(row):
javascript - Dropzone JS - 分块
我想我已经很接近这个了，我有以下 dropzone 配置: Dropzone.options.myDZ = { chunking: true, chunkSize: 500000, ret
javascript - 分块 WebSocket 传输
因为我在更常规的基础上使用 WebSocket 连接，所以我对事情在幕后的工作方式很感兴趣。因此，我研究了无休止的规范文档一段时间，但到目前为止，我真的找不到任何关于对传输流本身进行分 block 。
go - Go中的 slice 分块
我有一个 slice ，其中包含约 210 万个日志字符串，我想创建一个 slice ，字符串尽可能均匀分布。这是我目前所拥有的: // logs is a slice with ~2.1 mill
python - 大型 NumPy 数组的成对距离(分块？)
问题: 我有一个大约为 [350000, 1] 的向量，我希望计算成对距离。这导致 [350000, 350000] 整数数据类型的矩阵不适合 RAM。我最终想得到一个 bool 值(适合 RAM)，
jquery - JSONP 和 jQuery 分块
我想将 JSONP 用于具有 x 域脚本编写的项目，但不太关心 IE 中的 2048 个字符限制。如果字符大小超过 2048，JSONP 是否自动支持“分块”？如果是的话，有人可以分享一些例子吗？
java - Libgdx 分块 map 碰撞检测
我目前正在开发 2d 角色扮演游戏，例如《最终幻想 1-4》。基本上，我的平铺 map 可以加载， Sprite 可以在 map 上自由行走。如何处理与平铺 map 的碰撞？我创建了三个独立的图
python - 使用 Python-Treetaggerwrapper 分块
Treetagger 可以进行词性标记和文本分块，这意味着提取口头和名词性从句，如这个德语示例所示: $ echo 'Das ist ein Test.' | cmd/tagger-chunker-g
android - 带有改造 2 的流媒体服务器 - 分块
我应该从服务器流式传输端点，该端点返回带有传输编码的 json:分块。我有以下代码，但无法读取响应。我尝试了 responseBody.streamBytes() 并将输入流转换为字符串，但我不能在

首页

博学

6Ren·AI

商城

python - 在 AWS S3 中分块创建大型 zip 文件