gpt4 book ai didi

python - 如何在 python 中拆分前面有数字的 utf-8 字符串?

转载 作者:行者123 更新时间:2023-11-28 21:53:52 27 4
gpt4 key购买 nike

我得到了一个原始的 utf-8 字符串:

u'1\u670d-\u82f1\u96c4\u96c6\u7ed3'

我把它转换成字符串

s = str(u'1\u670d-\u82f1\u96c4\u96c6\u7ed3'.encode('utf8'))
print s
'1\xe6\x9c\x8d-\xe8\x8b\xb1\xe9\x9b\x84\xe9\x9b\x86\xe7\xbb\x93'

我想将数字 1 与其余字符串分开。

然后我尝试了:

s.split('\\')
['1\xe6\x9c\x8d-\xe8\x8b\xb1\xe9\x9b\x84\xe9\x9b\x86\xe7\xbb\x93']

s.split('\\x')
['1\xe6\x9c\x8d-\xe8\x8b\xb1\xe9\x9b\x84\xe9\x9b\x86\xe7\xbb\x93']

不是我想的那样。

我终于想到了一个 Spark ,我做到了:

s.split('\xe6')
['1', '\x9c\x8d-\xe8\x8b\xb1\xe9\x9b\x84\xe9\x9b\x86\xe7\xbb\x93']

但问题是,我无法确保其他此类组合中的 utf-8 代码以 '\xe6' 开头,因此我需要一种方法来区分具有任意 utf-8 代码的数字,然后将它们分开.

这有可能吗?

最佳答案

如果总是一位数,就索引第一项:

digit = s[0]

否则,您可以使用正则表达式来扫描它:

number = re.match(r'^\d+', s).group(0)

关于python - 如何在 python 中拆分前面有数字的 utf-8 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25336654/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com