python - 了解 Numpy 中的矢量化与通过 Numexpr 进行矢量化表达式的多线程之间的区别-6ren

python - 了解 Numpy 中的矢量化与通过 Numexpr 进行矢量化表达式的多线程之间的区别

转载作者：太空狗更新时间：2023-10-29 21:49:59

24

4

我对 NumPy 据说是对其算术数组操作进行矢量化的概念感到有点挣扎:它是否克服了 Python 的 GIL，因为 NumPy 的一部分是用 C 实现的？另外，Numexpr 是如何工作的呢？如果我理解正确的话，它通过优化的 JIT 运行代码并启用多线程，从而克服了 Python 的 GIL。

“真正的”矢量化不是更像是多进程而不是多线程吗？

最佳答案

在某些情况下，NumPy 可能会使用一个库，该库使用多个进程来进行处理，从而将负担分散到多个内核上。然而，这取决于库，与 NumPy 中的 python 代码没有太大关系。所以，是的，如果不是用 python 编写的，NumPy 和任何其他库都可以克服这些限制。甚至有一些库提供 GPU 加速功能。

NumExpr 使用相同的方法来绕过 GIL。从他们的主页:

此外，numexpr 直接在其内部虚拟机中实现了对多线程计算的支持，该虚拟机是用 C 语言编写的。这允许绕过 Python 中的 GIL

但是，NumPy 和 NumExpr 之间存在一些根本差异。 Numpy 专注于为数组操作创建一个良好的 Pythonic 接口(interface)，NumExpr 具有更窄的范围和自己的语言。当 NumPy 执行操作数为数组的计算 c = 3*a + 4*b 时，会在过程中创建两个临时数组(3*a 和 4 *b).在这种情况下，NumExpr 可能会优化计算，以便在不使用任何中间结果的情况下逐个元素地执行乘法和加法。

这会导致 NumPy 发生一些有趣的事情。下面的测试是在4核8线程的i7处理器上进行的，使用iPython的%timeit进行了计时:

import numpy as np
import numexpr as ne

def addtest_np(a, b): a + b
def addtest_ne(a, b): ne.evaluate("a+b")

def addtest_np_inplace(a, b): a += b
def addtest_ne_inplace(a, b): ne.evaluate("a+b", out=a)

def addtest_np_constant(a): a + 3
def addtest_ne_constant(a): ne.evaluate("a+3")

def addtest_np_constant_inplace(a): a += 3
def addtest_ne_constant_inplace(a): ne.evaluate("a+3", out=a)

a_small = np.random.random((100,10))
b_small = np.random.random((100,10))

a_large = np.random.random((100000, 1000))
b_large = np.random.random((100000, 1000))

# results: (time given is in nanoseconds per element with small/large array)
# np: NumPy
# ne8: NumExpr with 8 threads
# ne1: NumExpr with 1 thread
#
# a+b:
#  np: 2.25 / 4.01
#  ne8: 22.6 / 3.22
#  ne1: 22.6 / 4.21
# a += b:
#  np: 1.5 / 1.26 
#  ne8: 36.8 / 1.18
#  ne1: 36.8 / 1.48

# a+3:
#  np: 4.8 / 3.62
#  ne8: 10.9 / 3.09
#  ne1: 20.2 / 4.04
# a += 3:
#  np: 3.6 / 0.79
#  ne8: 34.9 / 0.81
#  ne1: 34.4 / 1.06

当然，对于所使用的计时方法来说，这不是很准确，但是有一定的总体趋势:

NumPy 使用更少的 cloc 周期 (np < ne1)
并行性对非常大的数组 (10-20 %) 有一点帮助
NumExpr 对于小数组要慢得多
NumPy 在就地操作方面非常强大

NumPy 并没有让简单的算术运算并行化，但是从上面可以看出，这其实无关紧要。速度主要受内存带宽限制，而不是处理能力。

如果我们做一些更复杂的事情，事情就会改变。

np.sin(a_large)               # 19.4 ns/element
ne.evaluate("sin(a_large)")   # 5.5 ns/element

速度不再受内存带宽限制。要查看这是否真的是由于线程(而不是由于 NumExpr 有时使用一些快速库):

ne.set_num_threads(1)
ne.evaluate("sin(a_large)")    # 34.3 ns/element

在这里，并行性真的很有帮助。

NumPy 可以使用并行处理更复杂的线性运算，例如矩阵求逆。 NumExpr 不支持这些操作，所以没有有意义的比较。实际速度取决于所使用的库 (BLAS/Atlas/LAPACK)。此外，在执行 FFT 等复杂运算时，性能取决于库。 (据我所知，NumPy/SciPy 还没有 fftw 支持。)

总而言之，似乎在某些情况下 NumExpr 非常快速且有用。然后在某些情况下 NumPy 是最快的。如果你有愤怒的数组和逐元素操作，NumExpr 非常强大。然而，应该注意的是，一些并行性(甚至跨计算机传播计算)通常很容易通过 multiprocessing 或类似的东西合并到代码中。

关于“多处理”和“多线程”的问题有点棘手，因为术语有点不稳定。在python中“线程”是运行在同一个GIL下的东西，但是如果我们谈论操作系统线程和进程，两者之间可能没有任何区别。例如，在 Linux 中，两者之间没有区别。

关于python - 了解 Numpy 中的矢量化与通过 Numexpr 进行矢量化表达式的多线程之间的区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24498178/

24

4

0

文章推荐： python - pandas groupby 后缺少列

文章推荐： c++ - 对候选人进行排名的最佳、有效方法是什么

文章推荐： c++ - 使用 Visual Studio 在调试期间导出数组内容

文章推荐： c++ - 有没有人成功为 ARC 移植 SpeakHere？

以太坊DAPP——了解
我开始在 Ethereum blockchain 上了解如何开发智能合约以及如何写 web-script用于与智能合约交互(购买、销售、统计......)我得出了该怎么做的结论。我想知道我是否正确理解
uiview - 了解 CATransform3D
我正在 UIView 中使用 CATransform3DMakeRotation，并且我正在尝试进行 45º，变换就像向后放置一样: 这是我拥有的“代码”，但显然没有这样做。 CATransform3
webrtc - 了解 WebRTC
我目前正在测试 WebRTC 的功能，但我有一些脑逻辑问题。 WebRTC 究竟是什么？我只读了“STUN”、“P2P”和其他...但是在技术方面什么是正确的 WebRTC(见下一个) 我需要什么
scala - 了解 DelayedInit
我在看 DelayedInit在 Scala in Depth ... 注释是我对代码的理解。下面的 trait 接受一个非严格计算的参数(由于 => )，并返回 Unit .它的行为类似于构造函数
wcf - 了解 WCF
谁能给我指出一个用图片和简单的代码片段解释 WCF 的资源。我厌倦了谷歌搜索并在所有搜索结果中找到相同的“ABC”文章。最佳答案 WCF 是一项非常复杂的技术，在我看来，它的文档记录非常少。启动和运
haskell - 了解 `getArgs`
我期待以下 GetArgs.hs打印出传递给它的参数。 import System.Environment main = do args main 3 4 3 :39:1: Coul
opengl - 了解 glVertexAttribPointer？
private int vbo; private int ibo; vbo = glGenBuffers(); ibo = glGenBuffers(); glBindBuffer(GL_ARRAY_
loops - 了解 For 循环
我正在尝试一个 for 循环。我添加了一个 if 语句以在循环达到 30 时停止循环。我见过i <= 10将运行 11 次，因为循环在达到 10 次时仍会运行。如果有设置 i 的 if 语句，为什
wsgi - 了解 WSGI
我正在尝试了解 WSGI 的功能并需要一些帮助。到目前为止，我知道它是一种服务器和应用程序之间的中间件，用于将不同的应用程序框架(位于服务器端)与应用程序连接，前提是相关框架具有 WSGI 适配器。
javascript - 了解 while 循环
我是 Javascript 的新手，我正在尝试绕过 while 循环。我了解它们的目的，我想我了解它们的工作原理，但我在使用它们时遇到了麻烦。我希望 while 值自身重复，直到两个随机数相互匹配。
fabric - 了解 Fabric
我刚刚偶然发现Fabric并且文档并没有真正说明它是如何工作的。我有根据的猜测是您需要在客户端和服务器端都安装它。 Python 代码存储在客户端，并在命令运行时通过 Fabric 的有线协议(pr
.net - 了解 ConditionalWeakTable
我想了解 ConditionalWeakTable .和有什么区别 class ClassA { static readonly ConditionalWeakTable OtherClass
process - 了解 Scrum
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
iphone - 了解 UIPickerView
我还没有成功找到任何可以引导我理解 UIPickerView 和 UIPickerView 模型的好例子。有什么建议吗？最佳答案为什么不使用默认的 Apple 文档示例？这是来自苹果文档的名为 U
haskell - 了解 `foldM`
我在看foldM为了获得关于如何使用它的直觉。 foldM :: Monad m => (a -> b -> m a) -> a -> [b] -> m a 在这个简单的例子中，我只返回 [Just
c++ - 了解 `_mm_prefetch`
答案What are _mm_prefetch() locality hints?详细说明提示的含义。我的问题是:我想要哪一个？我正在处理一个被重复调用数十亿次的函数，其中包含一些 int 参数。
.net - 了解 gcroot
我一直在读这个article了解 gcroot 模板。我明白 gcroot provides handles into the garbage collected heap 然后 the handle
debezium - 了解 Debezium
提供了一个用例: 流处理架构；事件进入 Kafka，然后由带有 MongoDB 接收器的作业进行处理。数据库名称:myWebsite集合:用户并且作业接收 users 集合中的 user 记录。
filesystems - 了解 NFS
你好我想更详细地了解 NFS 文件系统。我偶然发现了《NFS 图解》这本书，不幸的是它只能作为谷歌图书提供，所以有些页面丢失了。有人可能有另一个很好的资源，这将是在较低级别上了解 NFS 的良好开始
math - 了解 "randomness"
我无法理解这个问题，哪个更随机？ rand() 或: rand() * rand() 我发现这是一个真正的脑筋急转弯，你能帮我吗？编辑: 凭直觉，我知道数学答案是它们同样随机，但我忍不住认为，如果您

首页

博学

6Ren·AI

商城

python - 了解 Numpy 中的矢量化与通过 Numexpr 进行矢量化表达式的多线程之间的区别