python - 带有需要 dask 计算关键字参数的函数的自定义 dask 图-6ren

python - 带有需要 dask 计算关键字参数的函数的自定义 dask 图

转载作者：行者123 更新时间：2023-12-03 21:23:10

24

4

如何使用需要作为另一个 dask 任务结果的关键字参数的函数来构建自定义 dask 图？

dask 文档和几个stackoverflow 问题建议使用partial , toolz , 或 dask.compatibility.apply .所有这些解决方案都适用于静态关键字参数。我的理解来自 Including keyword arguments (kwargs) in custom Dask graphs对源代码和调试器的一些阅读是 dask.compatibility.apply可能能够使用作为 dask 计算结果的关键字参数。但是，我似乎无法获得正确的语法，也无法在其他地方找到答案。

下面的例子展示了一个相对简单的应用 dask.compatibility.apply使用 dask 计算的关键字值。 Dask 成功传递了计算参数的值 'a'和 'b' ，以及静态关键字值 'other' .但是，它传递了字符串 'c'到函数，而不是用它的计算值替换它。

import dask
from dask.compatibility import apply


def custom_func(a, b, other=None, c=None):
    print(a, b, other, c)
    return a * b / c / other


dsk = {
    'a': (sum, (1, 1)),
    'b': (sum, (2, 2)),
    'c': (sum, (3, 3)),
    'd': (apply, custom_func, ['a', 'b'], {'c': 'c', 'other': 2})
}

dask.visualize(dsk, filename='graph.png')
for key in sorted(dsk):
    print(key)
    print(dask.get(dsk, key))
    print('\n')

输出如下:

a
2


b
4


c
6


d
2 4 2 c
Traceback (most recent call last):
  File "dask_kwarg.py", line 20, in <module>
    print(dask.get(dsk, key))
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 562, in get_sync
    return get_async(apply_sync, 1, dsk, keys, **kwargs)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 529, in get_async
    fire_task()
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 504, in fire_task
    callback=queue.put)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 551, in apply_sync
    res = func(*args, **kwds)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 295, in execute_task
    result = pack_exception(e, dumps)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 290, in execute_task
    result = _execute_task(task, data)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/local.py", line 271, in _execute_task
    return func(*args2)
  File "/Users/holmgren/miniconda3/envs/pvlib36/lib/python3.6/site-packages/dask/compatibility.py", line 50, in apply
    return func(*args, **kwargs)
  File "dask_kwarg.py", line 7, in custom_func
    return a * b / c / other
TypeError: unsupported operand type(s) for /: 'int' and 'str'

最佳答案

一种方法是找出 dask.delayed 如何做到这一点:)

In [1]: import dask

In [2]: @dask.delayed
   ...: def f(*args, **kwargs):
   ...:     pass
   ...: 

In [3]: dict(f(x=1).dask)
Out[3]: 
{'f-d2cd50e7-25b1-49c5-b463-f05198b09dfb': (<function dask.compatibility.apply>,
  <function __main__.f>,
  [],
  (dict, [['x', 1]]))}

有趣的是，这也是本地调度器和分布式调度器不一致的情况。分布式调度程序可以很好地处理这个问题。

In [1]: from dask.distributed import Client

In [2]: client = Client()

In [3]: import dask
   ...: from dask.compatibility import apply
   ...: 
   ...: 
   ...: def custom_func(a, b, other=None, c=None):
   ...:     print(a, b, other, c)
   ...:     return a * b / c / other
   ...: 
   ...: 
   ...: dsk = {
   ...:     'a': (sum, (1, 1)),
   ...:     'b': (sum, (2, 2)),
   ...:     'c': (sum, (3, 3)),
   ...:     'd': (apply, custom_func, ['a', 'b'], {'c': 'c', 'other': 2})
   ...: }
   ...: 

In [4]: for key in sorted(dsk):
   ...:     print(key, client.get(dsk, key))
   ...:     
a 2
b 4
c 6
2 4 2 6
d 0.6666666666666666

关于python - 带有需要 dask 计算关键字参数的函数的自定义 dask 图，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51178430/

24

4

0

文章推荐： php - 给生成的 PDF 一个自定义标题

文章推荐：卸载完成时打开网页

文章推荐： Makefile、模式规则和目录

文章推荐： hibernate - jodatime 与 hibernate 5 的兼容性问题

dask - Dask 如何处理函数定义中的外部或全局变量？
如果我有一个依赖于某些全局或其他常量的函数，如下所示: x = 123 def f(partition): return partition + x # note that x is def
dask - Dask 不支持项目分配
我们可以通过哪些方式在 Dask Arrays 中执行项目分配？即使是一个非常简单的项目分配，如:a[0] = 2 不起作用。最佳答案正确的。这是文档中提到的第一个限制。通常，涉及 for 循环
dask - dask 工作人员存储结果或文件的默认目录是什么？
[mapr@impetus-i0057 latest_code_deepak]$ dask-worker 172.26.32.37:8786 distributed.nanny - INFO -
dask - 异步计算 dask 数组 block (Dask + FastAPI)
我正在构建一个 FastAPI 应用程序，它将为 Dask 数组的 block 提供服务。我想利用 FastAPI's asynchronous functionality旁边Dask-distrib
dask - dask 数据帧的延迟重新分区
在延迟数据帧处理的几个阶段之后，我需要在保存数据帧之前对其进行重新分区。但是，.repartition() 方法要求我知道分区的数量(而不是分区的大小)，这取决于处理后数据的大小，这是未知的。我想我
dask - 使用 dask.delayed 和 pandas.DataFrame 将 dask.bag 字典转换为 dask.dataframe
我正在努力转换 dask.bag将字典放入 dask.delayed pandas.DataFrames进入决赛 dask.dataframe 我有一个函数 (make_dict) 将文件读入一个相当
dask - 如何使用 dask/dask-cudf 将单个大型 Parquet 文件读入多个分区？
我正在尝试使用 dask_cudf/dask 读取单个大型 parquet 文件(大小 > gpu_size)，但它目前正在读取它到一个分区中，我猜这是从文档字符串推断出的预期行为: dask.dat
dask - 如何从 Dask 调度程序获取仪表板地址
当启动一个 dask 分布式本地集群时，您可以为 dashboard_address 设置一个随机端口或地址。如果稍后获取scheduler对象。有没有办法提取仪表板的地址。我有这个: clust
dask - 对 dask 数据帧样本的计算比对所有数据的计算要长得多
我有一个 dask 数据框，由 parquet 支持。它有 1.31 亿行，当我对整个帧执行一些基本操作时，它们需要几分钟。 df = dd.read_parquet('data_*.pqt') un
dask - 使用 Dask 中的所有内核
我正在使用 24 个 vCPU 的谷歌云计算实例。运行代码如下 import dask.dataframe as dd from distributed import Client client =
dask - 在 Dask 数据帧子集上强制局部性
我正在尝试在多台机器上分发一个大型 Dask 数据帧，以便(稍后)在数据帧上进行分布式计算。我为此使用了 dask-distributed。我看到的所有 dask 分布式示例/文档都是从网络资源(h
dask - 我怎样才能在与提交它的机器不同的机器上获得 Dask 计算的结果？
我在 Django 服务器后面使用 Dask，这里总结了我的基本设置:https://github.com/MoonVision/django-dask-demo/可以在这里找到 Dask 客户端:h
dask - 使用多列作为索引来旋转 dask 数据框
我有以下格式的 Dask DataFrame: date hour device param value 20190701 21 dev_01 att_1 0.00
dask - 无法使用 dask 删除列或切片数据框？
我正在尝试使用 dask 而不是 Pandas，因为我有 2.6gb csv 文件。我加载它，我想删除一列。但似乎无论是 drop 方法 df.drop('column') 或切片 df[ : ,
dask - 如何使用 Dask 对大文本文件进行排序？
我有一个比我的内存大得多的文本文件。我想按字典顺序对该文件的行进行排序。我知道如何手动完成: 分成适合内存的块对块进行排序合并块我想用 dask 来做。我认为处理大量数据将是 dask 的一个用
dask - 如何在 Dask 中停止正在运行的任务？
使用 Dask 的分布式调度程序时，我有一个正在远程工作人员上运行的任务，我想停止该任务。我该如何阻止？我知道取消方法，但如果任务已经开始执行，这似乎不起作用。最佳答案如果它还没有运行如果任务
dask - 按顺序迭代一个 dask 包
我需要将一个非常大的 dask.bag 的元素提交到一个非线程安全的存储区，即我需要类似的东西 for x in dbag: store.add(x) 我无法使用compute，因为包太大，无
dask - 在 Dask 数据帧中的现有索引上设置分区
如果我有一个已经索引的 Dask 数据框 >>> A.divisions (None, None) >>> A.npartitions 1 我想设置分区，到目前为止我正在做 A.reset_index
dask - 如何让 Dask 知道索引已排序？
根据 this回答，如果 Dask 知道数据帧的索引已排序，则 Dask 数据帧可以执行智能索引。如果索引已排序，我如何让 Dask 知道？在我的具体情况下，我正在做这样的事情: for sour
dask - 如何检查是否有一个已经在运行的 dask 调度程序？
我想从具有特定数量的工作人员的 python 启动本地集群，然后将客户端连接到它。 cluster = LocalCluster(n_workers=8, ip='127.0.0.1') client

首页

博学

6Ren·AI

商城

python - 带有需要 dask 计算关键字参数的函数的自定义 dask 图