gpt4 book ai didi

python - 在 Python 3 中删除 BMP(表情符号)之外的字符

转载 作者:行者123 更新时间:2023-11-28 21:47:39 25 4
gpt4 key购买 nike

我有一个错误:UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 266-266: Non-BMP character not supported in Tk

我正在解析数据,一些表情符号落入数组。 data = 'this variable contains some emoji'sツ😂' 我想要:data = 'this variable contains some emoji's'

如何从我的数据中删除这些字符或在 Python 3 中处理这种情况?

最佳答案

如果目标只是删除 '\uFFFF' 之上的所有字符,那么直接的方法就是这样做:

data = "this variable contains some emoji'sツ😂"
data = ''.join(c for c in data if c <= '\uFFFF')

您的字符串可能是分解形式,因此您可能需要 to normalize it to composed form首先,非 BMP 字符是可识别的:

import unicodedata

data = ''.join(c for c in unicodedata.normalize('NFC', data) if c <= '\uFFFF')

关于python - 在 Python 3 中删除 BMP(表情符号)之外的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36283818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com