python - 从行向量的迭代器构建一个大的 dask-backed xarray-6ren

python - 从行向量的迭代器构建一个大的 dask-backed xarray

转载作者：太空宇宙更新时间：2023-11-04 04:42:29

24

4

如何从行向量的迭代器构建 xarray。生成的数组可能比内存大，并将由 dask 数组支持。行向量还带有唯一标签，这些标签需要成为生成的 xarray 的行索引。在文档中，我只看到一个构造函数以内存中的 numpy 数组开头。

一个示例用例是将 word embedding model 存储为 xarray，并将单词作为行标签。这些模型通常提供一个迭代器，用于生成词汇表中所有单词的 (string, vector) 对。大多数模型都有 100 多个维度，词汇表中通常有 ~10^6 个单词。我想将向量堆叠成一个矩阵，以便执行线性代数运算，并且还能够按字符串查找行。

我希望能够写出类似这样的东西:

import numpy as np
import xarray as xr

vectors = (('V'+str(i), np.random.randn(10000)) for i in range(10**9))
xray = xarray_from_iter(vectors)
xray.to_parquet('big_xarray.parquet')
row1234567 = xray['V1234567']

xarray 是否提供类似xarray_from_iter 的东西？如果不是我怎么写呢？xarray_from_iter 应该像 numpy.fromiter除了它还应该标记行。它还需要延迟计算直到调用转储，因为整个问题是该数组大于内存。

最佳答案

TLDR； xarray 没有 from 迭代器构造函数。您必须自己构建 dask 阵列。

此外，xarray 没有 to_parquet 方法，因此(目前)您无法执行此操作。

这是一个示例，说明如何为您的用例构建 dask 数组(和 xarray.DataArray):

import dask.array
import xarray as xr
import numpy as np

num = 10

names = []
arrays = []
for i in range(num):
    names.append('V'+str(i))
    arrays.append(dask.array.random.random(10000, chunks=(1000,)))

da = xr.DataArray(data, dims=('model', 'sample'), coords={'model': names})

print(da)

产量:

<xarray.DataArray 'stack-ff07239b7ea24834ba59f2d05b7f41e2' (model: 10, 
sample: 10000)>
dask.array<shape=(10, 10000), dtype=float64, chunksize=(1, 1000)>
Coordinates:
  * model    (model) <U2 'V0' 'V1' 'V2' 'V3' 'V4' 'V5' 'V6' 'V7' 'V8' 'V9'
Dimensions without coordinates: sample

这不太可能有效，尤其是当迭代器的长度变大时(如您的示例)。在 dask github 问题页面上提出这样一个构造函数可能是值得的。

关于python - 从行向量的迭代器构建一个大的 dask-backed xarray，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50344033/

24

4

0

文章推荐： jquery - .hover 在 .click 插入时不再起作用

文章推荐： php - 我如何使用 system() 从 c 程序调用 php 脚本？

文章推荐： linux - Linux下如何杀死一个进程及其所有子进程？

文章推荐： c++ - Raspberry Pi 上的浮点性能(ARM 架构，BCM2835)

series - 更简单的方法重复 `back back series`
有时，我倾向于(重复)执行next next a 来获取特定元素。当您需要 2 次或更少的遍历时，这很有效。然而，它很快就会变得很麻烦。对于这个简单的情况，循环的开销太大。幸运的是，如果您知道位置，
php - 分阶段形式和 "going back"(在浏览器中单击 "back")
我有一个非常复杂的表单，其中有多个“阶段”。每个阶段都有表单，用户可以在其中添加不定数量的行。每次用户单击“继续”时，这些表单都会保存到数据库中(每个“阶段”在数据库中都有自己的表)并显示下一阶段。
iOS网络应用程序: Use back swipe gesture to go back
我根据官方指南调整了我的网站 https://developer.apple.com/library/archive/documentation/AppleApplications/Reference
java - 操作栏上的 "Back"按钮 - Android。如何去 "back"？
Action Bar 我说的是(图中的 1 号)带有小箭头的按钮和应用程序图标以及屏幕的左上角。当我们选择“黑色 Activity ”模板时，它会自动定义。我的应用程序有一个非常庞大的层次结构图，现
jquery - window.history.back 和parent.history.back 之间的区别
我正在开发一个网站，我需要返回到我访问过的页面。我正在使用parent.history.back。我的一位 friend 建议使用 window.history.back 而不是 Parent.his
ios - Swift:将 "Back"作为默认按钮文本设置为 "segue back"按钮
我正在寻找一种方法将所有后退按钮文本设置为“后退”，而不是默认显示 segue 来自的 View 的标题。我有多个 View 和 segue，希望有比在所有 View Controller 中使用
安卓工具栏 : how to go back to previous activity if back arrow is pressed
我有一个名为 Place 的 Activity 我从其之前名为 City 的 Activity 来到 Place Activity 。我使用以下代码在 Place Activity 中将后退按钮添加
java - 抽屉导航上的 Back Pressed Exit 对话框 Back Pressed 不起作用
这个问题已经有答案了: AlertDialog OnBackPressed() Not Working Properly (3 个回答) 已关闭 4 年前。我想实现抽屉导航后按对话框上的对话框后按。
c# - 分组项目页 : View jumps back to start when navigating back from detailpage
我为一家报纸开发了一个非常受欢迎的新闻应用程序。不幸的是，我的用户报告了我可以重现的以下问题: 该应用程序基本上由一个 GroupedItemsPage 和一个 ItemDetailPage (以及其
javascript - 动态加载 : Pass back url to script or pass back script itself?
我一直想知道是否有正确的方法来执行此操作:当我使用 AJAX 动态加载脚本时，我可以选择将 url 传回服务器上的脚本，然后运行:或者只是传回脚本本身。我采用了传回内容脚本本身的方法，因为我认为我只
PHP 或 shell : How to randomize a list without back to back repeats?
我是用 Linux BASH shell 写的，但如果有更好的 PHP 解决方案就好了。我需要从 12 个元素的数组中随机选择一个。这是我到目前为止一直在做的事情: # Display/return
iOS7 UINavigationController pushViewController :animated back to back with animation locks up the main thread
据我所知，似乎插入 UINavigationController背靠背动画在 iOS7 上造成了死锁。我最初在 iOS6 上遇到崩溃并想出了以下解决方案: 创建一个 View Controller
javascript - 嵌套 promise : make two promise calls back to back, 传递值
我目前正在为我的电子应用程序构建一个许可系统。但我在以下方面没有取得成功: promise 提示用户输入(电子提示模块) 之后立即对服务器进行 ajax 调用评估响应(来自服务器端脚本的 1\n 或
java - JSF : Passing an Object from one backing-bean to another backing-bean
我正在尝试为我在开发小型应用程序时遇到的一个小问题找出解决方案。我试图传递一个在一个支持 bean 中创建的对象，然后使用我在另一个支持 bean 中创建的同一对象。但是，我不想制作这些支持 bean
Android 操作栏 'back' 导致 OnDestroy 但设备 'back' 按钮在退出首选项 Activity 时不会
我有一个带有 Activity 的应用程序。在 Activity 中，我使用对话框 fragment 设置一些局部变量(这些变量确实有默认值)。我还有一个带有“三点”图标的操作栏，允许用户设置一些首选
android - react 导航 3 : Back button in Android doesn't back to previous screen
我正在使用 React Navigation 3 升级我的 React Native 应用程序的路由器配置，现在已经改进了很多东西，但我不明白为什么当我在 Android 中按下后退按钮时，没有将我发
databricks - Azure Databricks secret 范围 : Azure Key Vault-backed or Databricks-backed
有没有办法通过 python 笔记本确定现有的 Azure Databricks Secret Scope 是否由 Key Vault 或 Databricks 支持？ dbutils.secrets
javascript - Backbone.js 路由器 : hide in page modal instead of going back when back is pushed
我有一个基于 backbone.js 路由器的应用程序，它使用默认的 hashchange 处理程序在页面之间移动。在一个页面上有一个触发模态框的按钮，如果用户按下返回，我想关闭它，而不是将用户返回历
swift - Layer-backed NSView 子类在其非 layer-backed superview 上导致 z-index 问题
我试图了解层支持的 NSViews 是如何工作的。我在 playground 中创建了以下代码。 import Cocoa import XCPlayground class MyView: NSVi
html - :hover state is still active after going back in browser by using browser back-button
我将鼠标悬停在导航栏中的一个链接上，它改变了颜色。我在 Firefox 和 Safari 中遇到一个奇怪的问题:当我在浏览器中返回时(通过用鼠标单击后退按钮)悬停链接后，链接的颜色不会更改为其原始状

首页

博学

6Ren·AI

商城

python - 从行向量的迭代器构建一个大的 dask-backed xarray