gpt4 book ai didi

python - 在 Cython 中迭代字节/unicode 字符串的最佳方法

转载 作者:太空狗 更新时间:2023-10-29 15:42:09 24 4
gpt4 key购买 nike

我刚开始使用 Cython,结果也很难用 google 搜索 Cython 特定的东西,所以提前道歉。

我正在用 Cython 重新实现一个 Python 函数。在 Python 中它看起来像这样:

def func(s, numbers=None):
if numbers:
some_dict = numbers
else:
some_dict = default
return sum(some_dict[c] for c in s)

它在 Python 2 和 3 上运行良好。但是如果我尝试输入 sc ,它至少在一个 Python 版本上中断。我试过:

def func(char *s, numbers=None):
if numbers:
some_dict = numbers
else:
some_dict = default
cdef char c
cdef double m = 0.0
for c in s:
m += some_dict[<bytes>c]
return m

老实说,这是我唯一要做的事情,它在 Python 2 上提供了不错的加速,但在 Python 3 上中断了。阅读 this一 block Cython 文档,我认为以下内容适用于 Python 3:

def func(unicode s, numbers=None):
if numbers:
some_dict = numbers
else:
some_dict = default
cdef double m = 0.0
for c in s:
m += some_dict[c]
return m

但它实际上引发了一个 KeyError看起来像c仍然是char (缺少的键是 80 如果 s'P' 开头)但是当我 print(type(c))它说<class 'str'> .

请注意,原始的非类型化代码在两个版本下都可以工作,但比 Python 2 上的工作类型化版本慢大约两倍。

那么如何让它在 Python 3 上运行,然后如何让它同时在两个 Python 版本上运行?我可以/应该在类型/版本检查中包装类型声明吗?或者我是否应该编写两个函数并有条件地将其中一个函数分配给一个公开可用的名称?

附言如果重要的话,我可以只允许在字符串中使用 ASCII 字符,但我对此表示怀疑,因为 Cython 似乎更喜欢显式编码/解码。


编辑:我也尝试过显式编码和遍历字节串,这很有意义,但是下面的代码:

def func(s, numbers=None):
if numbers:
some_dict = numbers
else:
some_dict = default
cdef double m = 0.0
cdef bytes bs = s.encode('ascii')
cdef char c
for c in bs:
m += some_dict[(<bytes>c).decode('ascii')]
return m

比我在 Python 2 上的第一次尝试慢了 3 倍(接近纯 Python 函数的速度),在 Python 3 上慢了近 2 倍。

最佳答案

foo.h

// #include <unistd.h>;  // for ssize_t
double foo(char * str, ssize_t str_len, double weights[256]){
double output = 0.0;
int i;
for(i = 0; i < str_len; ++i){
output += weights[str[i]];
}
return output;
}

from cpython.string cimport PyString_GET_SIZE, PyString_Check, PyString_AS_STRING

cdef extern from "foo.h":
double foo(char * str, ssize_t str_len, double weights[256])

cdef class Numbers:
cdef double nums[256]

def __cinit__(self, py_numbers):
for x in range(256):
self.nums[i] = py_numbers[i]

def py_foo(my_str, Numbers nums_inst):
cdef:
double res
# check here my_str is BYTEstring
if not PyString_Check(my_str):
raise TypeError("bytestring expected got %s instead" % type(my_str))
res = foo(PyString_AS_STRING(my_str), PyString_GET_SIZE(my_str), nums_inst.nums)
return res

(未经测试)

关于python - 在 Cython 中迭代字节/unicode 字符串的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15337882/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com