python - 使用 numpy/ctypes 公开 C 分配的内存缓冲区的更安全方法？-6ren

python - 使用 numpy/ctypes 公开 C 分配的内存缓冲区的更安全方法？

转载作者：IT老高更新时间：2023-10-28 22:19:24

我正在为 C 库编写 Python 绑定(bind)，该库使用共享内存缓冲区来存储其内部状态。这些缓冲区的分配和释放是由库本身在 Python 之外完成的，但我可以通过从 Python 中调用包装的构造函数/析构函数来间接控制何时发生这种情况。我想向 Python 公开一些缓冲区，以便我可以从中读取，并在某些情况下将值推送给它们。性能和内存使用是重要的问题，因此我希望尽可能避免复制数据。

我目前的方法是创建一个 numpy 数组，它可以直接查看 ctypes 指针:

import numpy as np
import ctypes as C

libc = C.CDLL('libc.so.6')

class MyWrapper(object):

    def __init__(self, n=10):
        # buffer allocated by external library
        addr = libc.malloc(C.sizeof(C.c_int) * n)
        self._cbuf = (C.c_int * n).from_address(addr)

    def __del__(self):
        # buffer freed by external library
        libc.free(C.addressof(self._cbuf))
        self._cbuf = None

    @property
    def buffer(self):
        return np.ctypeslib.as_array(self._cbuf)

除了避免复制之外，这还意味着我可以使用 numpy 的索引和赋值语法，并将其直接传递给其他 numpy 函数:

wrap = MyWrapper()
buf = wrap.buffer       # buf is now a writeable view of a C-allocated buffer

buf[:] = np.arange(10)  # this is pretty cool!
buf[::2] += 10

print(wrap.buffer)
# [10  1 12  3 14  5 16  7 18  9]

然而，它本身也很危险:

del wrap                # free the pointer

print(buf)              # this is bad!
# [1852404336 1969367156  538978662  538976288  538976288  538976288
#  1752440867 1763734377 1633820787       8548]

# buf[0] = 99           # uncomment this line if you <3 segfaults

为了更安全，我需要能够在尝试读取/写入数组内容之前检查底层 C 指针是否已被释放。我对如何做到这一点有一些想法:

一种方法是生成一个 np.ndarray 的子类，该子类包含对 MyWrapper 的 _cbuf 属性的引用，检查它是否在对其底层内存进行任何读取/写入之前为 None，如果是这种情况，则会引发异常。
我可以轻松地在同一个缓冲区上生成多个 View ，例如通过 .view 强制转换或切片，因此每个都需要继承对 _cbuf 的引用和执行检查的方法。我怀疑这可以通过覆盖 __array_finalize__ 来实现，但我不确定具体如何。
还需要在读取和/或写入数组内容的任何操作之前调用“指针检查”方法。我对 numpy 的内部结构知之甚少，无法提供详尽的覆盖方法列表。

如何实现执行此检查的 np.ndarray 的子类？任何人都可以提出更好的方法吗？

更新:这个类做了我想要的大部分:

class SafeBufferView(np.ndarray):

    def __new__(cls, get_buffer, shape=None, dtype=None):
        obj = np.ctypeslib.as_array(get_buffer(), shape).view(cls)
        if dtype is not None:
            obj.dtype = dtype
        obj._get_buffer = get_buffer
        return obj

    def __array_finalize__(self, obj):
        if obj is None: return
        self._get_buffer = getattr(obj, "_get_buffer", None)

    def __array_prepare__(self, out_arr, context=None):
        if not self._get_buffer(): raise Exception("Dangling pointer!")
        return out_arr

    # this seems very heavy-handed - surely there must be a better way?
    def __getattribute__(self, name):
        if name not in ["__new__", "__array_finalize__", "__array_prepare__",
                        "__getattribute__", "_get_buffer"]:
            if not self._get_buffer(): raise Exception("Dangling pointer!")
        return super(np.ndarray, self).__getattribute__(name)

例如:

wrap = MyWrapper()
sb = SafeBufferView(lambda: wrap._cbuf)
sb[:] = np.arange(10)

print(repr(sb))
# SafeBufferView([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

print(repr(sb[::2]))
# SafeBufferView([0, 2, 4, 6, 8], dtype=int32)

sbv = sb.view(np.double)
print(repr(sbv))
# SafeBufferView([  2.12199579e-314,   6.36598737e-314,   1.06099790e-313,
#          1.48539705e-313,   1.90979621e-313])

# we have to call the destructor method of `wrap` explicitly - `del wrap` won't
# do anything because `sb` and `sbv` both hold references to `wrap`
wrap.__del__()

print(sb)                # Exception: Dangling pointer!
print(sb + 1)            # Exception: Dangling pointer!
print(sbv)               # Exception: Dangling pointer!
print(np.sum(sb))        # Exception: Dangling pointer!
print(sb.dot(sb))        # Exception: Dangling pointer!

print(np.dot(sb, sb))    # oops...
# -70104698

print(np.extract(np.ones(10), sb))
# array([251019024,     32522, 498870232,     32522,         4,         5,
#               6,         7,        48,         0], dtype=int32)

# np.copyto(sb, np.ones(10, np.int32))    # don't try this at home, kids!

我确定我还漏掉了其他边缘情况。

更新 2:按照 @ivan_pozdeev 的建议，我尝试了 weakref.proxy。这是一个好主意，但不幸的是我看不出它如何与 numpy 数组一起工作。我可以尝试为 .buffer:

返回的 numpy 数组创建一个弱引用

wrap = MyWrapper()
wr = weakref.proxy(wrap.buffer)
print(wr)
# ReferenceError: weakly-referenced object no longer exists
# <weakproxy at 0x7f6fe715efc8 to NoneType at 0x91a870>

我认为这里的问题是 wrap.buffer 返回的 np.ndarray 实例立即超出范围。一种解决方法是让类在初始化时实例化数组，持有对它的强引用，并让 .buffer() getter 返回一个 weakref.proxy 到数组:

class MyWrapper2(object):

    def __init__(self, n=10):
        # buffer allocated by external library
        addr = libc.malloc(C.sizeof(C.c_int) * n)
        self._cbuf = (C.c_int * n).from_address(addr)
        self._buffer = np.ctypeslib.as_array(self._cbuf)

    def __del__(self):
        # buffer freed by external library
        libc.free(C.addressof(self._cbuf))
        self._cbuf = None
        self._buffer = None

    @property
    def buffer(self):
        return weakref.proxy(self._buffer)

但是，如果我在同一个数组上创建第二个 View ，而缓冲区仍处于分配状态，则会中断:

wrap2 = MyWrapper2()
buf = wrap2.buffer
buf[:] = np.arange(10)

buf2 = buf[:]   # create a second view onto the contents of buf

print(repr(buf))
# <weakproxy at 0x7fec3e709b50 to numpy.ndarray at 0x210ac80>
print(repr(buf2))
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

wrap2.__del__()

print(buf2[:])  # this is bad
# [1291716568    32748 1291716568    32748        0        0        0
#         0       48        0] 

print(buf[:])   # WTF?!
# [34525664        0        0        0        0        0        0        0
#         0        0]

这是严重坏了 - 在调用 wrap2.__del__() 之后，我不仅可以读取和写入 buf2 这是一个 numpy 数组查看 wrap2._cbuf，但我什至可以读取和写入 buf，考虑到 wrap2.__del__() 集，这应该是不可能的wrap2._buffer 到 None。

最佳答案

当存在任何 numpy 数组时，您必须保留对 Wrapper 的引用。实现这一点的最简单方法是将此引用保存在 ctype-buffer 的属性中:

class MyWrapper(object):
    def __init__(self, n=10):
        # buffer allocated by external library
        self.size = n
        self.addr = libc.malloc(C.sizeof(C.c_int) * n)

    def __del__(self):
        # buffer freed by external library
        libc.free(self.addr)

    @property
    def buffer(self):
        buf = (C.c_int * self.size).from_address(self.addr)
        buf._wrapper = self
        return np.ctypeslib.as_array(buf)

当最后一个引用(例如最后一个 numpy 数组)被垃圾收集时，您的包装器会自动释放。

关于python - 使用 numpy/ctypes 公开 C 分配的内存缓冲区的更安全方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37988849/

文章推荐： android - 如何取消选中或重置单选按钮？

文章推荐： c++ - Nifty/Schwarz 计数器，符合标准？

文章推荐： Android IntentService 无法实例化类；没有空的构造函数

文章推荐： c++ - 真的需要 constexpr 吗？

iphone - GKSession 分配/释放/分配 = 泄漏和崩溃
我有一个应用程序，它会抛出 GKSession 并在各种条件下(连接超时、 session 失败等)创建一个新的 GKSession。不过，我遇到了内存泄漏问题，并且有时会在重新连接几次循环后崩溃。
c - 是否可以说哪个指针由 cudaMalloc 分配，哪个由 malloc 分配？
比如我在宿主代码中有一个浮点指针 float *p 是否可以确定他指向的内存类型(设备/主机)？最佳答案在 UVA system 中, 运行时 API 函数 cudaPointerGetAttri
.net - 运行时类型句柄.分配
我已将项目转换为 .Net 4.0 并且以下代码不起作用: typeof(RuntimeTypeHandle).GetMethod("Allocate", BindingFlags.Instance
分配 `ab` 时包含单个字符的字符
当我声明 char ch = 'ab' 时，ch 只包含 'b'，为什么它不存储 'a'？ #include int main() { char ch = 'ab'; printf("%c"
文件的磁盘扇区和 block 分配
我对 Disk Sector 和 Block 有疑问。扇区是一个单位，通常为 512 字节或 1k、2k、4k 等取决于硬件。文件系统 block 大小是一组扇区大小。假设我正在存储一个 5KB 的
javascript - 分配/分发随机数量
假设我有 8 个人和5000 个苹果。我想将所有苹果分发给所有 8 个人，这样我就没有苹果了。但每个人都应该得到不同数量将它们全部分发出去的最佳方式是什么？我是这样开始的: let peopl
javascript - 分配 "/"热键以在搜索框上创建焦点用户
我正在构建的网站顶部有一个搜索栏。与 Trello 或 Gmail 类似，我希望当用户按下“/”键时，他们的焦点就会转到该搜索框。我的 JavaScript 看起来像这样: document.onk
javascript - 事件处理程序之间的一个 $this 分配
我有一小段代码: if (PZ_APP.dom.isAnyDomElement($textInputs)){ $textInputs.on("focus", function(){
iphone - iOS保留，分配
我观察到以下行为。接受了两个属性变量。 @property (nonatomic, retain) NSString *stringOne; @property (nonatomic, assign
java - BODMAS 分配
我正在解决这样的问题 - 实现一个计算由以下内容组成的表达式的函数以下操作数:“(”、“)”、“+”、“-”、“*”、“/”。中的每个数字表达式可能很大(与由字符串表示的一样大)1000 位)。 “/
python - 主机中任务的指派/分配
我有一组主机和一组任务。每个主机都有 cpu、mem 和任务容量，每个任务都有 cpu、mem 要求。每个主机都属于一个延迟类别，并且可以与具有特定延迟值的其他主机通信。每个任务可能需要以等于或
c - c中内存的重新分配/分配
该程序的作用:从文件中读取一个包含 nrRows 行和 nrColomns 列的矩阵(二维数组)。矩阵的所有元素都是 [0,100) 之间的整数。程序必须重新排列矩阵内的所有元素，使每个元素等于其所在
c++ - 长号。分配
世界!我有个问题。今天我尝试创建一个代码，它可以找到加泰罗尼亚语号码。但是在我的程序中可以是长数字。我找到了分子和分母。但我不能分割长数字!此外，只有标准库必须在此程序中使用。请帮帮我。这是我的代码
ios - 分配 NSInteger*
我确定我遗漏了一些明显的东西，但我想在 Objective C 中创建一个 NSInteger 指针的实例。 -(NSInteger*) getIntegerPointer{ NSInteger
ios - 分配/初始化只读属性
这个问题在这里已经有了答案: Difference between self.ivar and ivar? (4 个答案) 关闭 9 年前。
c++ - 分配 vector
我如何将 v[i] 分配给一系列整数(v 的类型是 vector )而无需最初填充最佳答案你的意思是将 std::vector 初始化为一系列整数？ int i[] = {1, 2, 3, 4,
c - 分配 - 指针到指针
我想寻求分配方面的帮助....我把这个作业带到了学校......我必须编写程序来加载一个 G 矩阵和第二个 G 矩阵，并搜索第二个 G 矩阵以获取存在数第一个 G 矩阵的......但是，当我尝试运行
c - 分配/取消分配资源
我必须管理资源。它基本上是一个唯一的编号，用于标识交换机中的第 2 层连接。可以有 16k 个这样的连接，因此每次用户希望配置连接时，他/她都需要分配一个唯一索引。同样，当用户希望删除连接时，资源(号
c - 分配/未分配字符串的命名约定
是否有任何通用的命名约定来区分已分配和未分配的字符串？我正在寻找的是希望类似于 us/s 来自 Making Wrong Code Look Wrong ，但我宁愿使用常见的东西也不愿自己动手。最佳
c - 如何解决以下函数中的内存分配问题？ (分配)
我需要读取一个 .txt 文件并将文件中的每个单词分配到一个结构中，该结构从结构 vector 指向。我将在下面更好地解释。感谢您的帮助。我的程序只分配文件的第一个字... 我知道问题出在函数 i

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 使用 numpy/ctypes 公开 C 分配的内存缓冲区的更安全方法？