gpt4 book ai didi

python - 拆分包含 unicode 字符的单词

转载 作者:行者123 更新时间:2023-11-28 16:27:06 24 4
gpt4 key购买 nike

我正在从事一个涉及推文中的表情符号的 NLP 项目。

此处给出了推文的示例:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”

我的问题是 once🐙 被认为是一个词,所以我想把这个独特的词分成两个,这样我的推文就变成了这样:
“有时候我希望自己是一只 Octopus ,这样我就可以一次扇 8 个人耳光🐙”

请注意,我已经有了包含每个表情符号的已编译正则表达式!

我正在寻找一种有效的方法来做到这一点,因为我有数十万条推文,但我不知道从哪里开始。

谢谢

最佳答案

你不能做这样的事情吗:

>>> import re
>>> s = "sometimes i wish i wa an octopus so i could slap 8 people at once🐙"
>>> re.findall("(\w+|[^\w ]+)",s)
['sometimes', 'i', 'wish', 'i', 'wa', 'an', 'octopus', 'so', 'i', 'could', 'slap', '8', 'people', 'at', 'once', '🐙']

如果您再次需要它们作为单个空格分隔的字符串,只需加入它们:

>>> " ".join(re.findall("(\w+|[^\w ]+)",s))
'sometimes i wish i wa an octopus so i could slap 8 people at once 🐙'

编辑:修复。

关于python - 拆分包含 unicode 字符的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35691265/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com