gpt4 book ai didi

python - PyArray_Check 使用 Cython/C++ 给出段错误

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:06:35 26 4
gpt4 key购买 nike

谢谢大家。

我想知道什么是 #include 的正确方法所有 numpy header 以及使用 Cython 和 C++ 解析 numpy 数组的正确方法是什么。下面是尝试:

// cpp_parser.h 
#ifndef _FUNC_H_
#define _FUNC_H_

#include <Python.h>
#include <numpy/arrayobject.h>

void parse_ndarray(PyObject *);

#endif

我知道这可能是错误的,我也尝试了其他选项,但没有一个有效。
// cpp_parser.cpp
#include "cpp_parser.h"
#include <iostream>

using namespace std;

void parse_ndarray(PyObject *obj) {
if (PyArray_Check(obj)) { // this throws seg fault
cout << "PyArray_Check Passed" << endl;
} else {
cout << "PyArray_Check Failed" << endl;
}
}
PyArray_Check例程抛出段错误。 PyArray_CheckExact不扔,但这不是我想要的。
# parser.pxd
cdef extern from "cpp_parser.h":
cdef void parse_ndarray(object)

和实现文件是:
# parser.pyx
import numpy as np
cimport numpy as np

def py_parse_array(object x):
assert isinstance(x, np.ndarray)
parse_ndarray(x)
setup.py脚本是
# setup.py
from distutils.core import setup, Extension
from Cython.Build import cythonize

import numpy as np

ext = Extension(
name='parser',
sources=['parser.pyx', 'cpp_parser.cpp'],
language='c++',
include_dirs=[np.get_include()],
extra_compile_args=['-fPIC'],
)

setup(
name='parser',
ext_modules=cythonize([ext])
)

最后是测试脚本:
# run_test.py
import numpy as np
from parser import py_parse_array

x = np.arange(10)
py_parse_array(x)

我用上面的所有脚本创建了一个 git repo: https://github.com/giantwhale/study_cython_numpy/

最佳答案

快速修复 (阅读更多细节和更复杂的方法):

您需要初始化变量PyArray_API通过调用 import_array() 在您使用 numpy-stuff 的每个 cpp 文件中:

//it is only a trick to ensure import_array() is called, when *.so is loaded
//just called only once
int init_numpy(){
import_array(); // PyError if not successful
return 0;
}

const static int numpy_initialized = init_numpy();

void parse_ndarraray(PyObject *obj) { // would be called every time
if (PyArray_Check(obj)) {
cout << "PyArray_Check Passed" << endl;
} else {
cout << "PyArray_Check Failed" << endl;
}
}

也可以使用 _import_array ,如果不成功则返回负数,以使用自定义错误处理。 See here用于定义 import_array .

警告:正如@isra60 所指出的, _import_array()/import_array()只能在 Python 初始化后调用,即在 Py_Initialize() 之后被称为。这对于扩展来说总是如此,但如果嵌入了 python 解释器,则并非总是如此,因为 numpy_initializedmain 之前初始化- 开始。在这种情况下,不应使用“初始化技巧”,而应使用 init_numpy()后调用 Py_Initialize() .

成熟的解决方案:

注意:有关信息,为什么设置 PyArray_API需要,看这个 SO-answer :为了能够将符号解析推迟到运行时,因此链接时不需要 numpy 的共享对象,并且不能在动态库路径上(python 的系统路径就足够了)。

建议的解决方案很快,但是如果使用 numpy 的 cpp 不止一个,则有很多 PyArray_API 实例已初始化。

如果 PyArray_API 可以避免这种情况未定义为静态,而是定义为 extern除一个翻译单元外,其他所有单元。对于那些翻译单位 NO_IMPORT_ARRAY 宏必须在 numpy/arrayobject.h 之前定义已经包括了。

然而,我们需要一个定义这个符号的翻译单元。对于这个翻译单元,宏 NO_IMPORT_ARRAY不得定义。

但是,没有定义宏 PY_ARRAY_UNIQUE_SYMBOL我们将只得到一个静态符号,即对其他翻译单元不可见,因此链接器将失败。原因是:如果有两个库并且每个人都定义了一个 PyArray_API那么我们将有一个符号的多重定义,链接器将失败,即我们不能同时使用这两个库。

因此,通过定义 PY_ARRAY_UNIQUE_SYMBOLMY_FANCY_LIB_PyArray_APInumpy/arrayobject.h 的每个包含之前我们会有自己的 PyArray_API -name,不会与其他库发生冲突。

把它们放在一起:

答: use_numpy.h - 包含 numpy 功能的标题,即 numpy/arrayobject.h
//use_numpy.h

//your fancy name for the dedicated PyArray_API-symbol
#define PY_ARRAY_UNIQUE_SYMBOL MY_PyArray_API

//this macro must be defined for the translation unit
#ifndef INIT_NUMPY_ARRAY_CPP
#define NO_IMPORT_ARRAY //for usual translation units
#endif

//now, everything is setup, just include the numpy-arrays:
#include <numpy/arrayobject.h>

乙: init_numpy_api.cpp - 用于初始化全局的翻译单元 MY_PyArray_API :
//init_numpy_api.cpp

//first make clear, here we initialize the MY_PyArray_API
#define INIT_NUMPY_ARRAY_CPP

//now include the arrayobject.h, which defines
//void **MyPyArray_API
#inlcude "use_numpy.h"

//now the old trick with initialization:
int init_numpy(){
import_array();// PyError if not successful
return 0;
}
const static int numpy_initialized = init_numpy();

电话:只包括 use_numpy.h每当您需要 numpy 时,它都会定义 extern void **MyPyArray_API :
//example
#include "use_numpy.h"

...
PyArray_Check(obj); // works, no segmentation error

警告:不应该忘记,为了使初始化技巧起作用, Py_Initialize()必须已经被调用。

为什么需要它 (因历史原因保留):

当我使用调试符号构建您的扩展时:
extra_compile_args=['-fPIC', '-O0', '-g'],
extra_link_args=['-O0', '-g'],

并使用 gdb 运行它:
 gdb --args python run_test.py
(gdb) run
--- Segmentation fault
(gdb) disass

我可以看到以下内容:
   0x00007ffff1d2a6d9 <+20>:    mov    0x203260(%rip),%rax       
# 0x7ffff1f2d940 <_ZL11PyArray_API>
0x00007ffff1d2a6e0 <+27>: add $0x10,%rax
=> 0x00007ffff1d2a6e4 <+31>: mov (%rax),%rax
...
(gdb) print $rax
$1 = 16

我们应该记住, PyArray_Check只是一个 define for :
#define PyArray_Check(op) PyObject_TypeCheck(op, &PyArray_Type)

看来,那个 &PyArray_Type不知何故使用了 PyArray_API 的一部分未初始化(具有值 0 )。

我们来看看 cpp_parser.cpp在预处理器之后(使用标志 -E 编译:
 static void **PyArray_API= __null
...
static int
_import_array(void)
{
PyArray_API = (void **)PyCapsule_GetPointer(c_api,...

所以 PyArray_AP I 是静态的,通过 _import_array(void) 初始化,这实际上可以解释我在构建过程中收到的警告,即 _import_array()已定义但未使用 - 我们没有初始化 PyArray_API .

因为 PyArray_API是一个静态变量,它必须在每个编译单元中初始化,即 cpp - 文件。

所以我们只需要这样做 - import_array()似乎是官方的方式。

关于python - PyArray_Check 使用 Cython/C++ 给出段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47026900/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com