gpt4 book ai didi

python - 清理推文的问题(表情符号、笑脸......)

转载 作者:行者123 更新时间:2023-12-01 08:11:13 32 4
gpt4 key购买 nike

我在清理推文时遇到问题。我有一个将推文保存在 csv 中的过程,然后我对数据进行 pandas 数据框。

x 是来 self 的数据框的一条推文:

'b\'RT @LBC:詹姆斯·奥布莱恩谈到杰弗里·考克斯等待的法律建议:“我们正在等待一位未经选举的专家告诉我们是否需要提前\\xe2\\x80\\xa6\''

更多推文:“b'RT @suzannelynch1:同时在#Washington...#Congress 的近二十名成员在 #StPatricksDay 前夕写信给 #TheresaMay 访问 wa\\xe2\\x80\\xa6'

b"RT @KMTV_Kent:#KentTonight 民意调查:\\n肯特郡议员今天将就特蕾莎·梅的#Brexit 协议(protocol)发表意见。@SirRogerGaleMP 表示他会支持\\xe2\\x80\\xa6"

结果应该是这样的:詹姆斯·奥布莱恩 (James O'Brien) 谈到杰弗里·考克斯 (Geoffrey Cox) 等待的法律建议:“我们正在等待一位未经选举产生的专家来告诉我们是否需要”(保留主题标签,只需删除 utf8 字符即可)

我想清理这条推文。我尝试将正则表达式与 re.sub(my_regex)、re.compile ...

我尝试过不同的正则表达式:([\U00010000-\U0010ffff],r'@[A-Za-z0-9]+',https?://[A-Za-z0-9./]+)

我也这样尝试过:

x.encode('ascii','ignore').decode('utf-8')  

由于双反斜杠,它不起作用,当我这样做时它起作用:

'to tell us whether or not fore\xe2\x80\xa6'.encode('ascii','ignore').decode('utf-8')

它返回我:

'to tell us whether or not fore'

有人知道怎么清洗吗?非常感谢 !

最佳答案

看看这是否有帮助

a = 'b\'RT @LBC: James O\\\'Brien on Geoffrey Cox\\\'s awaited legal advice:     "We are waiting for a single unelected expert to tell us whether or not fore\\xe2\\x80\\xa6\''

chars = re.findall("""[\s"'#]+\w+""",a)

''.join([c for c in chars if c])

输出

James O'Brien on Geoffrey Cox's awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not for'

关于python - 清理推文的问题(表情符号、笑脸......),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55241606/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com