gpt4 book ai didi

python - 如何释放类型化的 numpy 数组?设置 callback_free_data 是一个可行的选择吗?

转载 作者:太空宇宙 更新时间:2023-11-04 05:27:33 28 4
gpt4 key购买 nike

在使用开源 Cython 库时,我发现了内存泄漏。泄漏似乎来自类型化的 numpy 数组,当它超出范围时,它不会从内存中释放。声明如下:

cdef np.ndarray[object, ndim=1] my_array = np.empty(my_size, dtype=object)

根据我的理解,垃圾收集器应该像任何其他 numpy 数组一样考虑它,并且 GC 应该在数组超出范围时立即释放它的内存——在这种情况下是在它所在的函数的末尾被宣布。显然这不会发生。

如果首先使用 cython 数组创建数组,然后将其转换为 numpy 数组,则可以使用描述的 callback_free_data 函数 herehere .但是,在这种情况下,无法到达 my_array 的指针,也无法设置回调。

知道为什么这种声明会导致内存泄漏和/或如何强制释放内存吗?

更新:

我的问题很笼统,我想避免发布代码,因为它有点复杂,但既然有人问了,我们就开始吧:

cdef dijkstra(Graph G, int start_idx, int end_idx):

# Some code

cdef np.ndarray[object, ndim=1] fiboheap_nodes = np.empty([G.num_nodes], dtype=object) # holds all of our FiboHeap Nodes Pointers

Q = FiboHeap()

fiboheap_nodes[start_idx] = Q.insert(0, start_idx)

# Some other code where it could perform operations like:
# Q.decrease_key(fiboheap_nodes[w], vw_distance)

# End of operations

# do we need to cleanup the fiboheap_nodes array here?

return

FiboHeap 是 c 实现的 Cython 包装器。例如,插入函数如下所示:

cimport cfiboheap
from cpython.pycapsule cimport PyCapsule_New, PyCapsule_GetPointer
from python_ref cimport Py_INCREF, Py_DECREF

cdef inline object convert_fibheap_el_to_pycapsule(cfiboheap.fibheap_el* element):
return PyCapsule_New(element, NULL, NULL)

cdef class FiboHeap:

def __cinit__(FiboHeap self):
self.treeptr = cfiboheap.fh_makekeyheap()
if self.treeptr is NULL:
raise MemoryError()

def __dealloc__(FiboHeap self):
if self.treeptr is not NULL:
cfiboheap.fh_deleteheap(self.treeptr)

cpdef object insert(FiboHeap self, double key, object data=None):
Py_INCREF(data)
cdef cfiboheap.fibheap_el* retValue = cfiboheap.fh_insertkey(self.treeptr, key, <void*>data)
if retValue is NULL:
raise MemoryError()

return convert_fibheap_el_to_pycapsule(retValue)

__dealloc__() 函数按预期工作,因此 FiboHeap 在函数 dijkstra(...) 结束时从内存中释放。我的猜测是 fiboheap_nodes 中包含的指针出了问题。有什么猜测吗?

最佳答案

问题(在评论中解决)原来不是 numpy 数组的释放。相反,numpy 数组包含一堆 Fiboheap 对象,这些对象本身包含指向一堆 Python 对象的指针。正是这些对象没有被释放。

Fiboheap 中的 Python 对象指针被获取(在 insert 中)时,它们的引用计数会增加以确保它们保持事件状态。然而,当 Fiboheap 被销毁时(在 __dealloc__ 中),它持有的 Python 对象的引用计数并没有减少,导致内存泄漏。解决方案是确保在 __dealloc__ 期间对所有持有的 Python 对象调用 Py_DECREF


可能还有第二个更具挑战性的问题等待出现:Fiboheap 持有的对象本身可能包含对 Fiboheap 的引用,也许是间接的。 Python 使用函数 tp_tranverse找到这些循环和 tp_clear 来打破它们。 Cython 会为其 cdef 类自动生成一个 tp_traverse,但是因为它无法知道隐藏在 C Fiboheap 中的 Python 对象指针结构它不会正确处理这些(可能会产生另一个内存泄漏)。

这在现实中可能不太可能发生,因此可能不值得担心,但这是需要注意的事情。 newsgroup post描述了一种在 Cython 中生成自定义 tp_traverse 函数的方法。对于大多数应用程序,这应该不是必需的 - 只有 Cython objectPyObject* 的混合才使它在这里成为可能。

关于python - 如何释放类型化的 numpy 数组?设置 callback_free_data 是一个可行的选择吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38251216/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com