c# - 使用适用于 .NET 的 AWS S3 SDK 从 Amazon S3 下载并行批处理文件-6ren

c# - 使用适用于 .NET 的 AWS S3 SDK 从 Amazon S3 下载并行批处理文件

转载作者：可可西里更新时间：2023-11-01 08:05:54

26

4

问题:我想使用他们的 .NET SDK 从 AWS S3 并行下载 100 个文件。下载的内容应该存储在 100 个内存流中(文件足够小，我可以从那里拿)。我对 Task、IAsyncResult、Parallel.* 和 .NET 4.0 中的其他不同方法感到困惑。

如果我尝试自己解决问题，我会突然想到像这样的伪代码:(编辑以向某些变量添加类型)

using Amazon;
using Amazon.S3;
using Amazon.S3.Model;

AmazonS3 _s3 = ...;
IEnumerable<GetObjectRequest> requestObjects = ...;


// Prepare to launch requests
var asyncRequests = from rq in requestObjects 
    select _s3.BeginGetObject(rq,null,null);

// Launch requests
var asyncRequestsLaunched = asyncRequests.ToList();

// Prepare to finish requests
var responses = from rq in asyncRequestsLaunched 
    select _s3.EndGetRequest(rq);

// Finish requests
var actualResponses = responses.ToList();

// Fetch data
var data = actualResponses.Select(rp => {
    var ms = new MemoryStream(); 
    rp.ResponseStream.CopyTo(ms); 
    return ms;
});

此代码并行启动 100 个请求，这很好。但是，有两个问题:

最后一条语句将串行下载文件，而不是并行下载。流中似乎没有 BeginCopyTo()/EndCopyTo() 方法...
在所有请求都响应之前，前面的语句不会放行。换句话说，在所有文件开始之前，所有文件都不会开始下载。

所以我开始觉得我走错了路......

帮忙吗？

最佳答案

如果您将操作分解为一个方法，该方法将异步处理一个请求，然后调用它 100 次，这可能会更容易。

首先，让我们确定您想要的最终结果。由于您将要使用的是 MemoryStream 这意味着您将要返回 Task<MemoryStream> 从你的方法。签名看起来像这样:

static Task<MemoryStream> GetMemoryStreamAsync(AmazonS3 s3, 
    GetObjectRequest request)

因为你的 AmazonS3对象实现了 Asynchronous Design Pattern , 您可以使用 FromAsync method在 TaskFactory class 上生成 Task<T>来自实现异步设计模式的类，如下所示:

static Task<MemoryStream> GetMemoryStreamAsync(AmazonS3 s3, 
    GetObjectRequest request)
{
    Task<GetObjectResponse> response = 
        Task.Factory.FromAsync<GetObjectRequest,GetObjectResponse>(
            s3.BeginGetObject, s3.EndGetObject, request, null);

    // But what goes here?

所以你已经在一个好地方，你有一个 Task<T>您可以等待或在调用完成时获得回调。但是，您需要以某种方式翻译 GetObjectResponse从对 Task<GetObjectResponse> 的调用返回进入 MemoryStream .

为此，您想使用 ContinueWith method在 Task<T> 上类(class)。将其视为 Select method 的异步版本在 Enumerable class 上, 它只是对另一个 Task<T> 的投影除了每次你调用ContinueWith ，您可能正在创建一个运行该代码部分的新任务。

这样，您的方法如下所示:

static Task<MemoryStream> GetMemoryStreamAsync(AmazonS3 s3, 
    GetObjectRequest request)
{
    // Start the task of downloading.
    Task<GetObjectResponse> response = 
        Task.Factory.FromAsync<GetObjectRequest,GetObjectResponse>(
            s3.BeginGetObject, s3.EndGetObject, request, null
        );

    // Translate.
    Task<MemoryStream> translation = response.ContinueWith(t => {
        using (Task<GetObjectResponse> resp = t ){
            var ms = new MemoryStream(); 
            t.Result.ResponseStream.CopyTo(ms); 
            return ms;
        } 
    });

    // Return the full task chain.
    return translation;
}

请注意，在上面您可以调用 overload of ContinueWith 路过 TaskContinuationOptions.ExecuteSynchronously ，看起来您所做的工作很少(我不知道，响应可能巨大)。如果您所做的工作非常少，而为了完成工作而开始一项新任务是有害的，您应该通过 TaskContinuationOptions.ExecuteSynchronously。这样您就不会浪费时间为最少的操作创建新任务。

现在您有了可以将一个请求转换为 Task<MemoryStream> 的方法，创建一个将处理任何个它们的包装器很简单:

static Task<MemoryStream>[] GetMemoryStreamsAsync(AmazonS3 s3,
    IEnumerable<GetObjectRequest> requests)
{
    // Just call Select on the requests, passing our translation into
    // a Task<MemoryStream>.
    // Also, materialize here, so that the tasks are "hot" when
    // returned.
    return requests.Select(r => GetMemoryStreamAsync(s3, r)).
        ToArray();
}

在上面，您只需获取 GetObjectRequest 的序列实例，它将返回 Task<MemoryStream> 的数组.它返回具体化序列这一事实很重要。如果您在返回之前没有具体化它，那么在迭代序列之前不会创建任务。

当然，如果您想要这种行为，那么一定要删除对 .ToArray() 的调用。 , 让方法返回 IEnumerable<Task<MemoryStream>>然后将在您遍历任务时发出请求。

从那里，您可以一次处理一个(在循环中使用 Task.WaitAny method)或等待所有它们完成(通过调用 Task.WaitAll method)。后者的一个例子是:

static IList<MemoryStream> GetMemoryStreams(AmazonS3 s3, 
    IEnumerable<GetObjectRequest> requests)
{
    Task<MemoryStream>[] tasks = GetMemoryStreamsAsync(s3, requests);
    Task.WaitAll(tasks);
    return tasks.Select(t => t.Result).ToList();
}

此外，应该提到的是，这非常适合 Reactive Extensions framework ，因为这非常非常适合 IObservable<T> 实现。

关于c# - 使用适用于 .NET 的 AWS S3 SDK 从 Amazon S3 下载并行批处理文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10486822/

26

4

0

文章推荐： php - 访问冲突使用 Laravel 两次连接另一个表上的表

文章推荐： mysql - "Incorrect MySQL client library version"

c# - 文件正在通过 visual studio 下载，而不是通过 .exe 下载
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
google-cloud-platform - 从 G Suite 下载 Google 外卖从 Google Cloud Storage 下载
我是一家非营利组织的 G Suite 管理员，刚刚发现数据导出功能，这似乎是个人帐户的外卖。导出文件已准备好，现在可以从 Google Cloud Platform Storage 中的存储桶下载。
七牛云私有空间图片上传、下载
导航引言总体思路七牛云相关的配置文件获取七牛云上传token 相关类定义核心代码实现获取七牛云图片下载链接公开空
下载 PDF 而不是在新标签页中打开
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它；我必须找出此 PDF 行
AdSense SDK 下载
您好，我已在 Google AdSense 中注册，我想使用适用于 iOS 的 SDK，但目前我找不到 SDK 下载链接。我的申请已获批准。任何人都知道如何下载这个sdk。我使用这个链接来描述如
github 下载 - 只能是平面文件系统吗？
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里，我可以为我需要的下载提供一个目录结构，因为我必须为大约 10 个不同的操作系统提供几个版本。 github
JavaScript Canvas 下载
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
特定用户的 Azure 下载
ASP.NET 项目我将使用 Azure 进行存储。问题(要求): 在我的项目中，我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
Java Servlet 下载
我编写了一个servlet，用于检查http header ，但我不知道为什么当页面加载时，它会自动开始下载。 /* * To change this template, choose To
JavaFX WebView 下载
我正在尝试将下载添加到我的网络浏览器，但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
Java 下载 html
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
java - 为什么当我开始此操作时我的框架会卡住[下载]
我制作了一个带有“开始下载”按钮的框架，用于从网站下载 JAR。问题是每当我点击开始下载按钮时，整个框架就会卡住，直到下载完成，然后就正常了。我该如何解决这个问题？这是单击按钮时执行的代码 p
iOS NSURLSession 下载
我得到这段代码来实现一些东西，它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
java - 流媒体上传/下载
我正在尝试创建一个 Controller 来使用流方法下载和上传文件，在我的例子中，所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档，但我认为这不是我的最佳解决方案。
下载 Alamofire 后快速保存文件
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
html - htaccess访问/下载
使用 htaccess 我基本上试图禁止访问该页面，即 http://example.com , 但它仍然允许人们下载文件，如果他们有直接链接即 http://example.com/hi.zip .
Linux - 下载/解压脚本
我正在寻求将脚本与我的控制面板集成，并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。示例: wget http://example.com/example.tar
android ffmpeg .so 下载
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
php - 如何保护网站免受批量抓取/下载？
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。我有
Python-Gmail邮件检索/下载
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。我只是想，是

首页

博学

6Ren·AI

商城

c# - 使用适用于 .NET 的 AWS S3 SDK 从 Amazon S3 下载并行批处理文件