gpt4 book ai didi

python - 使用 python 在文本中查找表情符号

转载 作者:太空宇宙 更新时间:2023-11-03 11:15:28 26 4
gpt4 key购买 nike

你好,我正在尝试使用 python 2.7 在下载的推文中查找所有表情符号

我已经尝试使用以下代码:

import os
import codecs
import emoji
from nltk.tokenize import word_tokenize

def extract_emojis(token):
emoji_list = []
if token in emoji.UNICODE_EMOJI:
emoji_list.append(token)
return emoji_list

for tweet in os.listdir(tweets_path):
with codecs.open(tweets_path+tweet, 'r', encoding='utf-8') as input_file:
line = input_file.readline()
while line:
line = word_tokenize(line)
for token in line:
print extract_emojis(token)

line = input_file.readline()

但是我只得到空列表,而不是表情符号。如果我收到以下推文

schuld van de sossen 😡 SP.a: wij hebben niks gedaan 😴 Groen: we gaan energie VERBIEDEN!

代码的输出是

[]

而不是想要的输出:

[😡, 😴]

有什么帮助吗?谢谢!

最佳答案

确保你的文本在 utf-8 上解码 text.decode('utf-8')

从您的文本中找到所有表情符号,您必须逐个字符地分隔文本 [str for str in decode]

将所有表情符号保存在列表中[c for c in allchars if c in emoji.UNICODE_EMOJI]

像这样:

import emoji
text = "🤔 🙈 lorum ipsum 😌 de 💕👭👙"
decode = text.decode('utf-8')
allchars = [str for str in decode]
list = [c for c in allchars if c in emoji.UNICODE_EMOJI]
print list

[u'\U0001f914', u'\U0001f648', u'\U0001f60c', u'\U0001f495', u'\U0001f46d', u'\U0001f459']

要取回您的表情符号,请尝试 this

关于python - 使用 python 在文本中查找表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52591190/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com