gpt4 book ai didi

python - 如何切片 numpy 字符串数组的每个元素?

转载 作者:太空狗 更新时间:2023-10-29 16:55:14 26 4
gpt4 key购买 nike

Numpy 有一些非常有用的 string operations ,它向量化了通常的 Python 字符串操作。

与这些操作和pandas.str相比,numpy strings 模块似乎缺少一个非常重要的功能:对数组中的每个字符串进行切片的能力。例如,

a = numpy.array(['hello', 'how', 'are', 'you'])
numpy.char.sliceStr(a, slice(1, 3))
>>> numpy.array(['el', 'ow', 're' 'ou'])

我是否在具有此功能的模块中遗漏了一些明显的方法?否则,有没有一种快速矢量化的方法来实现这一目标?

最佳答案

这是一个向量化的方法-

def slicer_vectorized(a,start,end):
b = a.view((str,1)).reshape(len(a),-1)[:,start:end]
return np.fromstring(b.tostring(),dtype=(str,end-start))

sample 运行-

In [68]: a = np.array(['hello', 'how', 'are', 'you'])

In [69]: slicer_vectorized(a,1,3)
Out[69]:
array(['el', 'ow', 're', 'ou'],
dtype='|S2')

In [70]: slicer_vectorized(a,0,3)
Out[70]:
array(['hel', 'how', 'are', 'you'],
dtype='|S3')

运行时测试-

测试其他作者发布的所有我可以运行的方法,还包括本文前面的矢量化方法。

这是时间安排-

In [53]: # Setup input array
...: a = np.array(['hello', 'how', 'are', 'you'])
...: a = np.repeat(a,10000)
...:

# @Alberto Garcia-Raboso's answer
In [54]: %timeit slicer(1, 3)(a)
10 loops, best of 3: 23.5 ms per loop

# @hapaulj's answer
In [55]: %timeit np.frompyfunc(lambda x:x[1:3],1,1)(a)
100 loops, best of 3: 11.6 ms per loop

# Using loop-comprehension
In [56]: %timeit np.array([i[1:3] for i in a])
100 loops, best of 3: 12.1 ms per loop

# From this post
In [57]: %timeit slicer_vectorized(a,1,3)
1000 loops, best of 3: 787 µs per loop

关于python - 如何切片 numpy 字符串数组的每个元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39042214/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com