gpt4 book ai didi

Python:使用表情符号作为分隔符拆分文本

转载 作者:太空宇宙 更新时间:2023-11-04 00:52:31 29 4
gpt4 key购买 nike

我正在尝试将 WhatsApp 聊天文本拆分为单个单词,但我不知道如何使用表情符号的 unicode 作为附加分隔符。

根据 http://unicode.org/emoji/charts/full-emoji-list.html ,一个示例 unicode 将是 U+1F602。我尝试了以下方法,但它不起作用。

text = file.read()
delimiters = " ", "..", "\"", "<", ">", "/", u"U+1F602"
regexPattern = '|'.join(map(re.escape, delimiters))
list = re.split(regexPattern, text)

最佳答案

非 BMP Unicode 字符的文字不是 u"U+1F602",在 Python 中是 u"\U0001F602"

尽管(仅靠它本身)不足以修复正则表达式。将 flags=re.UNICODE 传递给 re.split()。确保 type(text)unicode

I am trying to split a WhatsApp chat text into single words

您可以尝试 words = re.findall(ur"\w+", text, flags=re.UNICODE)。通常,如何将文本拆分为多个部分可能取决于上下文,例如,参见 how nltk.tokenize.TweetTokenizer is implemented .

关于Python:使用表情符号作为分隔符拆分文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36553475/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com