amazon-web-services - 如何在 s3 上分布式获取 key 列表-6ren

amazon-web-services - 如何在 s3 上分布式获取 key 列表

转载作者：行者123 更新时间：2023-12-04 08:11:19

25

4

我正在尝试分发从 s3 获取 6000 万个 key (文件名)列表的过程。

背景:
我正在尝试通过 pyspark 处理一个文件夹中的所有文件，大约 6000 万个。如详细 HERE典型的 sc.textFile('s3a://bucket/*') 会将所有数据加载到驱动程序中，然后将其分发到集群。建议的方法是首先获取文件列表，并行化该列表，然后让每个节点获取文件的一个子集。

问题:
在这种方法中，如果“获取文件列表”步骤足够大，那么仍然存在瓶颈。获取 s3 存储桶中的键(文件名)列表的这一步也必须分发以提高效率。

我试过的:
我尝试了两种不同的方法:

使用 python aws api (boto3)，它对结果进行分页。理想情况下，我们可以估计页面数，并分配一个范围，以便节点 1 请求页面 1-100，节点 2 请求页面 101-200，等等。不幸的是，您不能指定任意页面 ID，您必须获得“下一个标记”来自上一页，也就是结果的链接列表。

aws cli，它们允许排除和包含过滤器。由于我正在检索的文件名都以 8 位整数开头，因此理论上我可以让节点一请求匹配 10* 的文件的完整文件列表，而第二个节点请求匹配 11 的文件名的完整文件列表* 等。这是通过以下方式完成的:

aws s3 --recursive --exclude=""include="10"s3://bucket/

不幸的是，它似乎对每个请求都进行了全面扫描，而不是使用某个索引，因为它每个请求挂起超过 15 分钟。

有没有办法使任一解决方案可行？有第三种选择吗？我确信我并不是唯一需要消化数百万个 s3 文件的人。

最佳答案

如果您需要一个 Amazon S3 内容列表，但又不需要它是最新的，您可以使用 Amazon S3 Storage Inventory ，它将存储 S3 存储桶中所有文件的每日 CSV 列表。然后您可以使用该列表来触发您的 pyspark 作业。

同样，您可以维护一个包含所有文件的数据库，每当使用 Amazon S3 Event Notifications 将对象添加到存储桶或从存储桶中删除对象时，都会有一个更新数据库的过程。 .这样，您的 pyspark 作业列表始终是最新的并且可以访问。

关于amazon-web-services - 如何在 s3 上分布式获取 key 列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41401650/

25

4

0

文章推荐： r - 如何使用 knitr 比较不同版本 R 的性能？

文章推荐： amazon-web-services - 无法下载 AWS CodeDeploy 代理安装文件

primary-key - MySQL keys : PRIMARY KEY, FOREIGN KEY, KEY -- "KEY"是什么？
查看“mysqldump -d”并看到一个键是 KEY，而不是“PRIMARY KEY”或“FOREIGN KEY” 什么是关键？示例: CREATE TABLE IF NOT EXISTS `TA
python - 从字典中获取键 : keys() vs 'keys for keys in dict.keys()'
在我开始使用 Python 的过程中尝试找出最佳编码实践。我用 Pandas 写了一个 csv 到数据框阅读器。它使用格式: dataframe = read_csv(csv_input, useco
key - 'MyhomePage({Key key, this.title}) : super(key: key);' in Flutter - what would be a clear explanation with an example?
在 Flutter 中，用一个例子可以清楚地解释什么？我的困惑是关于 key，如下面的代码所示。 MyHomepage({Key key, this.title}) : super(key: key
android - Google API 中的server-key、android-key、browser-key 和iOS key 有什么区别？
我在我的 Android 应用程序中使用 GCM。要使用 GCM 服务，我们需要创建 Google API key 。因此，我为 android、服务器和浏览器 key 创建了 API key 。似乎
azure - 如何在一个 key 中创建具有多个值的 key 保管库 key ？
我想在 azure key 保管库中创建一个 secret ，该 key 将具有多个 key (例如 JSON)。例如- { "storageAccountKey":"XXXXX", "Co
encryption - 指定的 key 不是此加密的有效 key : Key size is not valid. 得到的 key 长度为:15
尝试通过带有 encodeforURL() 的 url 发送 key 时，我不断收到错误消息和 decodefromUrl() .代码示例如下。这是我的入口页面: key = generateSec
key - 检查雪花变体中是否存在 key
是否有检查雪花变体字段中是否存在键的函数？最佳答案您可以使用 IS_NULL_VALUE 来查看 key 是否存在。如果键不存在，则结果将为 NULL。如果键存在，如果值为 JSON null，则
key - 无法从 keys.gnupg.net 添加 key
我正在尝试运行此命令: sudo apt-key adv --keyserver keys.gnupg.net --recv-keys 1C4CBDCDCD2EFD2A 但我收到一个错误: Execu
python - 我该如何放置字典 {key : value} in it's designated key in a dictionary so that it is {key: {key: value}} after counting value
我有一个 csv 文件，我正在尝试对 row[3] 进行计数，然后将其与 row[0] 连接 row[0] row[3] 'A01' 'a' 'B02'
c# - 如何在 C# 中编写一个看起来像 A(key, B(key, C(key, ValFactory(key)))) 的递归函数？
如何编写具有这种形式的函数: A(key, B(key, C(key, ValFactory(key)))) 其中 A、B 和 C 具有此签名: TResult GetOrAdd(string key
javascript - 为什么 Object.keys(this).map(key => (this as any)[key])？
审查 this method我很好奇为什么它使用 Object.keys(this).map(key => (this as any)[key])? 只调用 Object.keys(this).ind
Python: `key not in my_dict` 但 `key in my_dict.keys()`
我有一个奇怪的情况。我有一个字典，self.containing_dict。使用调试器，我看到了字典的内容，并且可以看到 self 是其中的一个键。但是看看这个: >>> self in self.c
google-apps-script - computeRsaSha256Signature() 返回无效参数 : key error when key is public key or rsa private key
我需要在我的 Google Apps 脚本中使用 RSA-SHA256 和公钥签署消息。我正在尝试使用 Utilities.computeRsaSha256Signature(value, key)
reactjs - {...{ key }} 与 key={key} 相同来分配 React 属性吗？
我是 React 的初学者开发人员，几天前我看到了一些我不理解的有趣语法。 View组件上有{...{key}}，我会写成 key={key} ，它完全一样吗？你有链接或解释吗？ render()
sql - 代理 key 、合成 key 和人工 key 之间有区别吗？
代理 key 、合成 key 和人工 key 之间有什么区别吗？我不清楚确切的区别。最佳答案代理键、合成键和人工键是同义词。技术关键是另一个。它们都表示“没有商业意义的主键”。它们不同于具有超出
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
Perl:如何获取 key "keys on reference is experimental"上的 key
我正在寻找 Perl 警告的解决方案 “引用键是实验性的” 我从这样的代码中得到这个: foreach my $f (keys($normal{$nuc}{$e})) {#x, y, and z 我在
java - JCE中是否有任何机制来指定 key 生成生命周期( session key 或永久 key )
我正在为 HSM 实现 JCE 提供程序 JCE中有没有机制指定 key 生成类型例如: session key 或永久 key KeyGenerator keygen = KeyGener
android - invalid key hash key 哈希与任何存储的 key 哈希不匹配
我在 Facebook 上创建了一个应用程序。我已经正确添加了 keyhash 并且应用程序运行良好但是当我今天来并尝试再次运行它时它给了我这个错误。这已经是第二次了。 Previsouly 当我收

首页

博学

6Ren·AI

商城

amazon-web-services - 如何在 s3 上分布式获取 key 列表