python - 在 Cython 中小写 unicode 字符串的 numpy 数组的最快方法-6ren

python - 在 Cython 中小写 unicode 字符串的 numpy 数组的最快方法

转载作者：太空狗更新时间：2023-10-29 21:10:36

25

4

Numpy 的字符串函数都非常慢，而且性能不如纯 Python 列表。我希望使用 Cython 优化所有普通字符串函数。

例如，让我们采用一个包含 100,000 个数据类型为 unicode 或对象的 unicode 字符串的 numpy 数组，并将每个字符串小写。

alist = ['JsDated', 'УКРАЇНА'] * 50000
arr_unicode = np.array(alist)
arr_object = np.array(alist, dtype='object')

%timeit np.char.lower(arr_unicode)
51.6 ms ± 1.99 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

使用列表理解同样快

%timeit [a.lower() for a in arr_unicode]
44.7 ms ± 2.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

对于对象数据类型，我们不能使用np.char。列表理解速度提高了 3 倍。

%timeit [a.lower() for a in arr_object]
16.1 ms ± 147 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

我知道如何在 Cython 中执行此操作的唯一方法是创建一个空对象数组并在每次迭代时调用 Python 字符串方法 lower。

import numpy as np
cimport numpy as np
from numpy cimport ndarray

def lower(ndarray[object] arr):
    cdef int i
    cdef int n = len(arr)
    cdef ndarray[object] result = np.empty(n, dtype='object')
    for i in range(n):
        result[i] = arr[i].lower()
    return result

这会产生适度的改进

%timeit lower(arr_object)
11.3 ms ± 383 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

我试过像这样使用 data ndarray 属性直接访问内存:

def lower_fast(ndarray[object] arr):
    cdef int n = len(arr)
    cdef int i
    cdef char* data = arr.data
    cdef int itemsize = arr.itemsize
    for i in range(n):
        # no idea here

我相信 data 是一 block 连续的内存，一个接一个地保存所有原始字节。访问这些字节非常快，转换这些原始字节似乎可以将性能提高 2 个数量级。我找到了一个 tolower可能有效的 c++ 函数，但我不知道如何将它与 Cython Hook 。

用最快的方法更新(不适用于 unicode)

这是迄今为止我从另一篇 SO 帖子中找到的最快的方法。这通过 data 属性访问 numpy memoryview 将所有 ascii 字符小写。我认为它也会破坏其他字节数在 65 到 90 之间的 unicode 字符。但是速度非常好。

cdef int f(char *a, int itemsize, int shape):
    cdef int i
    cdef int num
    cdef int loc
    for i in range(shape * itemsize):
        num = a[i]
        print(num)
        if 65 <= num <= 90:
            a[i] +=32

def lower_fast(ndarray arr):
    cdef char *inp
    inp = arr.data
    f(inp, arr.itemsize, arr.shape[0])
    return arr

这比其他方法和我正在寻找的方法快 100 倍。

%timeit lower_fast(arr)
103 µs ± 1.23 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

最佳答案

这只比我的机器上的列表理解快一点，但如果你想要 unicode 支持，这可能是最快的方法。您需要apt-get install libunistring-dev 或适合您的操作系统/包管理器的任何内容。

在一些 C 文件中，例如，_lower.c，有

#include <stdlib.h>
#include <string.h>   
#include <unistr.h>
#include <unicase.h>

void _c_tolower(uint8_t  **s, uint32_t total_len) {
    size_t lower_len, s_len;
    uint8_t *s_ptr = *s, *lowered;
    while(s_ptr - *s < total_len) {
        s_len = u8_strlen(s_ptr);
        if (s_len == 0) {
            s_ptr += 1;
            continue;
        }
        lowered = u8_tolower(s_ptr, s_len, NULL, NULL, NULL, &lower_len);
        memcpy(s_ptr, lowered, lower_len);
        free(lowered);
        s_ptr += s_len;
    }
}

然后，在 lower.pxd 中做

cdef extern from "_lower.c":
    cdef void _c_tolower(unsigned char **s, unsigned int total_len)

最后，在 lower.pyx 中:

cpdef void lower(ndarray arr):
    cdef unsigned char * _arr
    _arr = <unsigned char *> arr.data
    _c_tolower(&_arr, arr.shape[0] * arr.itemsize)

在我的笔记本电脑上，我用了 46 毫秒来理解你上面的列表，用了 37 毫秒来用这个方法(你的 lower_fast 是 0.8 毫秒)，所以这可能不值得，但我想我' d 键入它以防你想要一个如何将这样的东西挂接到 Cython 的例子。

我不知道有几点改进会产生很大的不同:

arr.data 我猜是不是有点像方阵？ (我不知道，我什么都不用 numpy)，并用 \x00 填充较短字符串的末尾。我懒得弄清楚如何让 u8_tolower 看过去的 0，所以我只是手动快进过去(这就是 if (s_len == 0) 条款正在做)。我怀疑一次调用 u8_tolower 会比调用数千次快得多。
我正在做大量的释放/存储操作。如果你聪明的话，你或许可以避免这种情况。
我认为每个小写 unicode 字符最多与其大写变体一样宽，因此这不应该遇到任何段错误或缓冲区覆盖或只是重叠子字符串问题，但不要相信我的话。

不是真正的答案，但希望对您的进一步调查有所帮助!

PS 你会注意到这是就地降低，所以用法是这样的:

>>> alist = ['JsDated', 'УКРАЇНА', '道德經', 'Ну И йЕшШо'] * 2
>>> arr_unicode = np.array(alist)
>>> lower_2(arr_unicode)
>>> for x in arr_unicode:
...     print x
...
jsdated
україна
道德經
ну и йешшо
jsdated
україна
道德經
ну и йешшо

>>> alist = ['JsDated', 'УКРАЇНА'] * 50000
>>> arr_unicode = np.array(alist)
>>> ct = time(); x = [a.lower() for a in arr_unicode]; time() - ct;
0.046072959899902344
>>> arr_unicode = np.array(alist)
>>> ct = time(); lower_2(arr_unicode); time() - ct
0.037489891052246094

编辑

DUH，您将 C 函数修改为如下所示

void _c_tolower(uint8_t  **s, uint32_t total_len) {
    size_t lower_len;
    uint8_t *lowered;

    lowered = u8_tolower(*s, total_len, NULL, NULL, NULL, &lower_len);
    memcpy(*s, lowered, lower_len);
    free(lowered);
}

然后它一次完成所有操作。就 lower_len 遗留的旧数据中的某些内容可能比原始字符串更短而言，看起来更危险...简而言之，此代码完全是实验性的，仅用于说明目的，请勿使用此代码在生产中它可能会中断。

无论如何，这种方式快 40%:

>>> alist = ['JsDated', 'УКРАЇНА'] * 50000
>>> arr_unicode = np.array(alist)
>>> ct = time(); lower_2(arr_unicode); time() - ct
0.022463043975830078

关于python - 在 Cython 中小写 unicode 字符串的 numpy 数组的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47998664/

25

4

0

文章推荐： python - 将序列变成列表的函数

文章推荐： c++ - 在CGAL中获取两个圆的交点

文章推荐： python - 如何在使用 pip 安装的 Anaconda 中卸载软件包

Ruby 方法() 方法
我想了解 Ruby 方法 methods() 是如何工作的。我尝试使用“ruby 方法”在 Google 上搜索，但这不是我需要的。我也看过 ruby-doc.org，但我没有找到这种方法。
VBS教程：方法-Test 方法
Test 方法对指定的字符串执行一个正则表达式搜索，并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
VBS教程：方法-Replace 方法
Replace 方法替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
VBS教程：方法-Raise 方法
Raise 方法生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
VBS教程：方法-Execute 方法
Execute 方法对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
VBS教程：方法-Clear 方法
Clear 方法清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。说明在错误处理后，使用 Clear 显式地清除 Err 对象。此
VBS教程：方法-CopyFile 方法
CopyFile 方法将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
VBS教程：方法-Copy 方法
Copy 方法将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
VBS教程：方法-Close 方法
Close 方法关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。说明下面例子举例说明如何使用 Close 方
VBS教程：方法-BuildPath 方法
BuildPath 方法向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
VBS教程：方法-GetFolder 方法
GetFolder 方法返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
VBS教程：方法-GetFileName 方法
GetFileName 方法返回指定路径（不是指定驱动器路径部分）的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
VBS教程：方法-GetFile 方法
GetFile 方法返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
VBS教程：方法-GetExtensionName 方法
GetExtensionName 方法返回字符串，该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
VBS教程：方法-GetDriveName 方法
GetDriveName 方法返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
VBS教程：方法-GetDrive 方法
GetDrive 方法返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
VBS教程：方法-GetBaseName 方法
GetBaseName 方法返回字符串，其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
VBS教程：方法-GetAbsolutePathName 方法
GetAbsolutePathName 方法从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
VBS教程：方法-FolderExists 方法
FolderExists 方法如果指定的文件夹存在，则返回 True；否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
VBS教程：方法-FileExists 方法
FileExists 方法如果指定的文件存在返回 True；否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS

首页

博学

6Ren·AI

商城

python - 在 Cython 中小写 unicode 字符串的 numpy 数组的最快方法

用最快的方法更新(不适用于 unicode)