python - Joblib 的 Loky 后端如何处理对全局变量的访问？-6ren

python - Joblib 的 Loky 后端如何处理对全局变量的访问？

转载作者：行者123 更新时间：2023-12-05 03:43:51

25

4

在 Joblib 中使用处理全局变量的函数时，可以从函数访问全局变量，而无需在 Linux 上进行任何复制。

我们可以在下面的脚本中进行测试:

import joblib
import numpy as np

print("Initializing global")
# Let's create a global that is big, so it takes time to create it
my_global = np.random.uniform(0,100, size=(10**4, 10**4))
print("done")

# A simple function working on the global variable
def fun_with_global():
    return id(my_global)

print("starting // loop")
joblib.Parallel(n_jobs=3, backend="multiprocessing", verbose=100)((joblib.delayed(fun_with_global)() for i in range(1000)))
joblib.Parallel(n_jobs=3, backend="loky", verbose=100)((joblib.delayed(fun_with_global)() for i in range(1000)))
# We get that the two last parallel calls execute almost instantly, even for 1000 jobs.
# When we instead return id(my_global.copy()) in fun_with_global, here we see the copy operation is lengthy.

事实上，对 Parallel 的调用几乎是即时的，这意味着没有对全局变量进行 pickling/unpickling。

此行为实际上是后端相关的:

从 multiprocessing 后端来看，这是完全合乎逻辑的，因为 multiprocessing workers fork 了原始进程，这意味着全局变量 my_global 已经存在于 worker 内存中而不需要努力.
来自 loky 后端，它在 documentation 中说明loky worker fork/exec，这意味着他们无法轻松访问此全局变量。

那么，Loky 如何在不创建副本或 fork 的情况下访问父进程的全局变量？

编辑:下面的示例仅适用于基于 numpy 数组的全局变量。使用另一个变量，会有不同的行为:

import joblib
import numpy as np
import pandas as pd
import time

print("Initializing global")
# This time, let's create a big variable, that is not based on np arrays
with open("/dev/urandom", "rb") as fd:
    my_global = fd.read(10**9)
print("done")

def fun_with_global():
    return id(my_global)

print("starting // loop")
joblib.Parallel(n_jobs=3, backend="multiprocessing", verbose=100)((joblib.delayed(fun_with_global)() for i in range(1000)))
joblib.Parallel(n_jobs=3, backend="loky", verbose=100)((joblib.delayed(fun_with_global)() for i in range(1000)))
# Here the multiprocessing backend still executes instantly, but the Loky backends is slow

最佳答案

其实Loky除了函数之外，还序列化了函数的全局变量，如我们所见here .所以这意味着所有使用的全局变量都通过序列化方法发送给工作人员。

此外，在上面的示例中观察到的对 Loky 后端的安装调用仅在 numpy 数组的情况下有效。在 numpy 数组的情况下，Loky 巧妙地映射了 numpy 数组，使数组立即传输到其他进程。当使用 numpy 数组以外的变量时，Loky 必须序列化和反序列化整个变量(不是 memmap 句柄)，这会花费更多时间，如上面的第二个示例所示。

关于python - Joblib 的 Loky 后端如何处理对全局变量的访问？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66605590/

25

4

0

文章推荐： typescript-compiler-api - Typescript 转换器， `node.parent` 未定义

文章推荐： .net - 如何更新已安装的 .NET SDK？

PHP $全局 |安全查询
我的应用程序中有一个 settings.php 页面，它使用 $GLOBALS 来存储网络应用程序中使用的配置。例如，他是我使用的一个示例设置变量: $GLOBALS["new_login_page
macos - 未知的伪操作 : . 全局
我正在尝试编译我们在 OS 类上获得的简单操作系统代码。它在 Ubuntu 下运行良好，但我想在 OS X 上编译它。我得到的错误是: [compiling] arch/i386/arch/start
hadoop - 带有通配符或变量的distcp目录的设计模式(全局)
我知道distcp无法使用通配符。但是，我将需要在更改的目录上安排distcp。 (即，仅在星期一等“星期五”目录中复制数据)，还从指定目录下的所有项目中复制数据。是否有某种设计模式可用于编写此类
grails - 全局@Resource格式优先级
是否可以在config.groovy中全局定义资源格式(json，xml)的优先级，而不是在每个Resource上指定？例如，不要在@Resource Annotation的参数中指定它，例如: @R
Hibernate - 如何使关联渴望(全局)？
是否有一些简单的方法来获取大对象图的所有关联，而不必“左连接获取”所有关联？我不能只告诉 Hibernate 默认获取 eager 关联吗？最佳答案即使有可能有一个全局 lazy=false(谷歌
Java - 全局、可重用的加载对话框
我正在尝试实现一个全局加载对话框...我想调用一些静态函数来显示对话框和一些静态函数来关闭它。与此同时，我正在主线程或子线程中做一些工作...... 我尝试了以下操作，但对话框没有更新...最后一次，
styling - 哪个字母占用了最多的新兴市场(全局)？
当我偶然发现 this question 时，我正在阅读更改占位符文本。无论如何，我回去学习了占位符。一个 SO 的回答大致如下: Be careful when designing your pl
javascript - 匹配不遵循字母表的数字并将它们放在捕获组中(全局)
例如，如果我有这样的文字: "hello800 more text 1234 and 567" 它应该匹配 1234 和 567，而不是 800(因为它遵循 hello 的 o，这不是一个数字)。这
android - 短信电话号码验证的替代方案 - 全局
我一直在尝试寻找一种无需使用 SMS 验证系统即可验证电话号码(Android 和 iPhone)的方法。原因纯粹是围绕成本。我想要一个免费的解决方案。我可以安全地假设 Android 操作系统会向
c++ - 为所有类提供运行时参数的规范方法——全局？
解决此类问题的规范 C++ 设计模式是什么？我有一些共享多个类的多线程服务器。我需要为大多数类提供各种运行时参数(例如服务器名称、日志记录级别)。在下面的伪 C++ 代码中，我使用了一个日志记录类
Python 全局/局部变量赋值问题
这个问题在这里已经有了答案: Using global variables in a function (25 个答案) 关闭 9 年前。我是 python 的新手，所以可能有一个简单的答案，但我
c++ - (全局)静态变量会在程序结束时被销毁吗？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Does C++ call destructors for global and class static
ios - NSMutableArray 全局
我正在尝试使用 Objective-C 中的 ArrayList 的等价物。我知道我必须使用 NSMutableArray。我想要一个字符串列表 (NSString)。关键是我的列表应该可以从我类(c
Android 全局/通用函数
今天刚开始学习 Android 开发，我找不到任何关于如何定义 Helper 类或将全局加载的函数集合的信息，我会能够在我创建的任何 Activity 中使用它们。我的计划是创建(至少目前)2 个几
Python 全局/局部变量
为什么这段代码有效: var = 0 def func(num): print num var = 1 if num != 0: func(num-1) fun
php - 错误还是黑客？ $全局
$GLOBALS["items"] = array('one', 'two', 'three', 'four', 'five' ,'six', 'seven'); $alter = &$GLOBALS
Python:日志记录模块 - 全局
我想知道如何实现一个可以在任何地方使用您自己的设置的全局记录器: 我目前有一个自定义记录器类: class customLogger(logging.Logger): ... 该类位于一个单独的
jestjs - 全局 beforeAll in Jest？
我需要使用 React 测试库和 Jest 在我的测试中模拟不同的窗口大小。目前我必须在每个测试文件中包含这个beforeAll: import matchMediaPolyfill from 'm
oop - 静态成员不会使类本身成为(全局)对象吗？
每次我遇到单例模式或任何静态类(即(几乎)只有静态成员的类)的实现时，我想知道这是否实际上不是一种黑客行为，因此只是为了设计而严重滥用类和实例的原则单个对象，而不是设计类和创建单个实例。对我来说，看起
regex - 全局 g 正则表达式标志的奇怪行为
这个问题在这里已经有了答案: Help understanding global flag in perl (2 个回答) 7年前关闭。 my $test = "There was once an\n

首页

博学

6Ren·AI

商城

python - Joblib 的 Loky 后端如何处理对全局变量的访问？