gpt4 book ai didi

python - 如何在python中分离混合词(波斯语和英语)

转载 作者:行者123 更新时间:2023-11-28 18:04:02 26 4
gpt4 key购买 nike

您好,我有一个字符串数据集,有些字符串包含混合词,如下所示:

    سلام12World
دوربینdigital
سال2012good

...我想要的输出是:

   12 سلام world
دوربین digital
2012 سال good

这是我的代码:

 def spliteKeyWord(str):
regex = r"[\u200b-\u200c]|[0-9]+|[a-zA-Z]+\'*[a-z]*"
matches = re.findall(regex, str, re.UNICODE)
return matches

但是这段代码没有显示我想要的输出。是否有可能得到类似的输出?

最佳答案

您可以将 re.findall 与交替模式一起使用:

def spliteKeyWord(s):
return re.findall(r'[\dA-Za-z]+|[^\dA-Za-z\W]+', s, re.UNICODE)

关于python - 如何在python中分离混合词(波斯语和英语),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54581355/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com