python - 加载 PySpark 中 npz 存档中存储的 numpy 数组-6ren

python - 加载 PySpark 中 npz 存档中存储的 numpy 数组

转载作者：太空宇宙更新时间：2023-11-03 16:57:52

25

4

我在 S3 中有大量 numpy 数组存储在 npz 存档中。将它们加载到 NumPy 数组的 PySpark RDD/Dataframe 中的最佳方法是什么？我尝试使用 sc.wholeTextFiles API 加载该文件。

rdd=sc.wholeTextFiles("s3://[bucket]/[folder_containing_npz_files]")

但是 numpy.load 需要文件句柄。并且将文件内容作为字符串加载到内存中会占用大量内存。

最佳答案

您无法对内存要求做太多事情，但 BytesIO 应该可以正常工作:

from io import BytesIO

def extract(kv):
    k, v = kv
    with BytesIO(v) as r:
        for f, x in np.load(r).items():
            yield "{0}\t{1}".format(k, f), x

sc.binaryFiles(inputPath).flatMap(extract)

关于python - 加载 PySpark 中 npz 存档中存储的 numpy 数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35276004/

25

4

0

文章推荐： ruby - 使用 'require' 和符号链接(symbolic link)时的路径问题

文章推荐： c# - Entity Framework : Many To Many Count and Sum

文章推荐： c# - 对象池框架

Perl 存档:: tar
我想用 File::Find 归档所有 txt 文件，删除源文件并删除空目录。我在使用“$tar->rename( );”重命名文件时遇到困难因为我想从它们的完整路径名中删除它们并仅使用父目录/*.
来自远程的特定哈希的 git 存档
我试图从一个远程存储库中获取一个目录，但我只想从特定的哈希中获取该文件。如果我使用带有 HEAD 的 git archive 一切正常，但是当我尝试使用特定的哈希时: git archive -v -
子目录中的 git 存档
无论当前目录如何，我都在尝试归档我的项目。项目结构 main_folder/ sub1/ sub2/ sub3/ 如果我 cd至 main_folder/sub2/s
从裸仓库上更改的文件中获取 git 存档
我有一个创建 install-tars 的远程裸存储库(无工作目录)。很好用。但是现在我只想为更改的文件创建 tars。我这样试过: git archive --format=tar --prefix
具有未暂存更改的 git 存档
我正在构建自己的 rpm。通常我使用 git archive 从我感兴趣的提交或标签中获取 tarball(假设我放了一个标签 1.0): git archive --format=tgz --pre
具有未提交更改的存储库的 Git 存档
如何使用 git archive 创建当前存储库的存档，包括本地未提交的更改？最佳答案我知道这是旧的，但我想我找到了解决方案。运行: stashName=`git stash create`;
android - 您上传的文件不是格式正确的 zip 存档
当我尝试发布 aab 时，出现此错误。请有人帮助我。我该如何修复它。点击蓝色链接查看图片最佳答案当我使用拖放操作到网络浏览器时，我经常遇到这个错误。如果我使用页面上的“上传”按钮并使用文件选择
module - 未创建多个 Ansible 存档
我试图通过使用归档模块从 2 个文件夹中创建 2 个归档。不幸的是，它无法正常工作，没有任何错误。我的任务如下所示: tasks: - name: create a tarball of
unix - 如何创建不会扩展到子文件夹的 tar 存档？
我不想创建一个没有内部目录结构的“平面”tarball。但我希望顶级文件是“松散的”而不是镜像它们最初所在的目录结构。考虑: + archives | + data | + site
xcode 存档/ipa 问题
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Xcode 4 Archive Version Unspecified 你好，我正在为 iPad 临时部署归档应
iphone - 存档/取消存档 UIWebView？
我想将 UIWebView 的当前状态保存到 iPhone SDK 中的磁盘。我有一个 UIWebView，它加载一个包含大量 JavaScript 的网站。我想保存 UIWebView 状态，维护
xcode - 没有库的通用 Xcode 存档
存档我的 Mac OS 应用程序时，我收到“通用 Xcode 存档”。我读过，可以通过在任何静态库上将 Skip Install 设置为 YES 来解决此问题，但我没有添加任何静态库。我有两个目标和一
delphi - 将文件添加到 ZIP 存档？
可以使用什么组件或方法来指定文件名列表，然后将它们压缩到单个存档中？我不需要高级功能或任何东西，但如果我可以将一些文件名添加到字符串列表中，然后将这些文件放入 ZIP 中，那就太好了。我尝试搜索一
pipe - 如何从标准输入中提取 tar 存档？
我有一个很大的 tar 文件，我分割了。是否可以使用管道来 cat 并解压文件。类似于: cat largefile.tgz.aa largefile.tgz.ab | tar -xz 而不是: c
带有时间戳的 Gradle distZip 存档
我使用 distZip 任务来创建我的发行版。目前发行版名称为“baseName”-“version”.zip。我想将当前时间戳用作分类器，即构建时间。我尝试使用 distZip { cla
javascript - 无法下载动态创建的 ZIP 存档
我正在尝试将 MySQL 查询的输出动态写入存档。这是我的代码: var async = require("async"); var mysql = require("mysql"); var exp
mercurial - 制作一个没有前缀的 Mercurial 存档
也许是个愚蠢的问题，但我的谷歌不起作用。在我的存储库根目录上执行以下操作: $ hg archive my_archive.tar.gz 给我一个 tar.gz 文件，其中包含一个名为 my_ar
tar - 这看起来不像 tar 存档
[root@c0002242 lfeng]# tar -zxvf/opt/test/ALLscripts.tar.gz -C/opt/test1 tar:这看起来不像 tar 存档 tar:跳到下一个
gzip - 如何创建平面 tar 存档
我的tree命令返回 tmp `-- t `-- e |-- foo.ps `-- s |-- bar.ps `
c++ - 使用-(存档-)gcc命令
在编译DLL时，我遇到了许多undefined reference错误，我认为这可能是由于库之间的循环依赖关系引起的。为了解决这个问题，我一直在尝试使用-(文件-)和--start-group文件--

首页

博学

6Ren·AI

商城

python - 加载 PySpark 中 npz 存档中存储的 numpy 数组