python - Dask Bag of dicts 到 Dask 数组-6ren

python - Dask Bag of dicts 到 Dask 数组

转载作者：太空宇宙更新时间：2023-11-04 04:53:52

28

4

我需要将 {'imgs': np.array(img_list), 'lables': np.array(label_list)} 的 dask.Bag 转换成两个单独的 dask.Array-s .为什么我创建 Bag 而不是直接去 Array？因为我通过 map() 多次处理那个 Bag；没能对 Array 做同样的事情。

现在，以下代码适用于小型数据集，但显然不适用于更大的数据。

images_array = da.from_array(np.array([item['images'] for item in imgs_labels_bag]), chunks=chunksize)
labels_array = da.from_array(np.array([item['labels'] for item in imgs_labels_bag]), chunks=chunksize)

如何在不将 objs 转换为 numpy 的情况下做到这一点？

想法:

我试过 Bag -> Delayed -> Array 但它没有成功，因为数组形状有问题。
一个选项可能是将 Bag 作为文本文件转储到磁盘上，然后将其作为 dask.DataFrame/Array 读取。示例:b_dict.map(json.dumps).to_textfiles("/path/to/data/*.json")
我可以各有 2 袋 np.array，然后尝试 Bag -> Delayed -> Array，而不是一袋字典。

还有其他想法吗？

最佳答案

如果 item['images'] 是一维 numpy 数组，并且您想按以下方式平铺它们:

+---------------+
|item0['images']|
+---------------+
|item1['images']|
+---------------+
|item2['images']|
+---------------+

然后这可以工作(doc):

import dask.bag as db
import numpy as np
import dask.array as da
b = db.from_sequence([{'img':np.arange(10)}]*4)
s = da.stack([item['img'] for item in b], axis=0)
print(s.compute())

结果:

[[0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]]

关于python - Dask Bag of dicts 到 Dask 数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47542788/

28

4

0

文章推荐： linux - 每 3 天执行一次的 crontab 不起作用

文章推荐： linux - 将软件包移植到 powerpc 需要什么工具？

文章推荐： regex - 编写 bash sed 命令时遇到问题 - 正则表达式匹配

hadoop - PIG 从一个 Bag 中选择另一个 Bag 的数据
我是 HADOOP 和 PIG 的新手。我有两个包: DUMP A: (1) (2) (4) DUMP B: (1,John,USA) (2,Richard,UK) (3,Ian,Ireland)
hadoop - pig : How to flatten & re-join bags within bags
我有一个例子，我们正在尝试做一个看似简单的连接: A = load 'data6' as ( item:chararray, d:int, things:bag{(thing:chararray, d
feature-selection - 计算机视觉中的 "Bag of Words"和 "Bag of features"有什么区别？
研究该主题，可以找到作者使用“词袋”模型进行图像分类/检索的论文，而其他人则使用“特征袋”模型进行类似任务。尽管我对所涉及的方法有基本的了解(检测和提取视觉词、构建视觉词典、使用机器学习训练分类器)
apache-pig - pigLatin 中的 'outer bag' 和 'inner bag' 之间有什么区别？
手册/文档广泛使用了“内袋”和“外袋”的语言(例如: http://pig.apache.org/docs/r0.11.1/basic.html )，但我无法清楚地确定分隔这些术语的精确定义。例如所
java - 奇怪的 Java 编译器错误 (Error :(65, 23) java : incompatible types: Bag. Node 无法转换为 Bag.Node )
这个问题已经有答案了: Type mismatch: cannot convert from Item to Item (1 个回答) 已关闭 7 年前。我很困惑。我无法将外部类的实例变量 Node
c++ Bag Of Words聚集数组大小问题
我正在尝试使用 ORB 作为我的 detector 和 extractor 以及 BruteForce 创建一个词袋程序> 用于匹配器。一切正常。但我担心的是，当我尝试对我的描述符数组进行聚类时，
948. Bag of Tokens 令牌放置
题目地址：https://leetcode.com/problems/bag-of-tokens/description/ 题目描述 Youhave an initial power P, an
3d - "sphere in a bag"平面到球体的投影
我正在寻找一种数学变换，以将2D平面[0,1]x[0,1]上的点变换到单位球面上。最常见的投影是通过将u和v解释为球坐标的角度来进行纬度-经度映射(将u映射为[0,2PI]和v映射为[-PI/2,
rdf - SPARQL查询rdf容器(rdf : Bag)
我有这个RDF A B D 1 C
c++ - Bag Of Words 的标签数据
我一直在看this tutorial标签部分让我感到困惑。不是标记本身的行为，而是教程中显示过程的方式。更具体地说，#pragma omp 部分: #pragma omp parallel for
python - `dask.bag` 读取多行json数组时出现JSONDecodeError
当使用 dask.bag 读取 json 文件时，如果文件中的 json 是多行，我会收到 JSONDecodeError 。 import json import dask.bag as db db
c++ - Bag of Features 如何运作？
我不确定这个论坛是否适合这个问题，否则我很抱歉。我对 Bag of Features 很陌生模型，我正在尝试实现以通过 vector 表示图像(对于 CBIR 项目)。据我了解，给定训练集 S的
haskell - Haskell Bag(多集)实现
我正在尝试实现Haskell Bag(多集)。到目前为止，我已经有了 data Bag a = EmptyBag | ListBag [(a, Integer)] deriving (Eq, Sho
java - Hibernate bag 与 idbag
我已经研究了 bag 和 idbag 之间的区别，我理解它们之间的区别，但我想了解的是，如果使用 bag 而不是 idbag ，是否会出现问题，反之亦然。有人可以用一个例子解释一下吗？最佳答案 Ba
nhibernate - 将 Hibernate 过滤器属性应用于具有多对多关系的 Bag
考虑以下 Hibernate 映射文件: ... 当我运行以下命令时: _session.EnableFil
Prolog findall/3 : more than one bag
我正在为 Fox and Geese 类型的游戏编写 AI。我的谓词之一如下所示: moveFox(+PrevState, -NextState, -PegList, +VisitedStates,
Haskell - Bags - 如何在 Haskell 中使用多态性？
我刚刚开始学习 Haskell，但还没有掌握函数式编程。我需要创建一个多态数据类型，在运行我编写的函数之一之前我不知道其类型。该程序似乎希望我从列表中构建元组列表，例如: ['Car', 'Car',
java - 一对多映射的 hibernate bag 中出现错误
我想像下面这样定义包在上述情况下，hbm 文件中存在 xml 错误: 元素类型“bag”的内容必须匹配 “(元*，子选择？，缓存？，同步*，注释？，键，(元素|一对
java - 在 Java 中使用 Bag
Here ，我看到 Bag 类应该位于 java.util.Collection 中，但是当我尝试使用它时，我得到无法解析为类型 > 错误。我应该复制+粘贴this或者是否缺少一些库？最佳答案这
python - 改变 dask.bag 内的对象
我正在尝试使用 dask.bag 来保存给定类的对象，其中每个实例捕获文档的各种属性(标题、字数等)。该对象有一些关联的方法，用于设置该对象的不同属性。例如: import dask.bag as

首页

博学

6Ren·AI

商城

python - Dask Bag of dicts 到 Dask 数组