gpt4 book ai didi

python - 如何使用python在urdu文本中应用正则表达式

转载 作者:太空宇宙 更新时间:2023-11-04 02:16:47 25 4
gpt4 key购买 nike

我想应用正则表达式来消除乌尔都语文本中的英文字符数字和符号。我正在从乌尔都语的 Twitter 中提取推文,我想删除除乌尔都语和表情符号之外的所有内容。

这是我的输出

;00;RT @MeFixerr: شہباز شریف صاحب اس 
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے
اسمبلی پاکستان کی نہیں اسپین کی
ہو جہاں کسی کو اردو نہیں آتی 😂

这是我的代码

for tweet in tweepy.Cursor(api.search, q="اردو", rpp=10).items(10):
msg = [tweet.text]
msg = tuple(msg)
msgs.append(msg)
df = pd.DataFrame(msgs)
df.to_csv('ae3214.txt', sep = ';', line_terminator = '', encoding = 'UTF-8')

最佳答案

尝试使用 flags=re.UNICODE

例如:

import re
s = """;00;RT @MeFixerr: شہباز شریف صاحب اس
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے
اسمبلی پاکستان کی نہیں اسپین کی
ہو جہاں کسی کو اردو نہیں آتی 😂"""

print(re.sub(r"[A-Za-z0-9@;:]", "", s, flags=re.UNICODE)) #Replaces English letters, numbers and symbols like @;:

关于python - 如何使用python在urdu文本中应用正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52490708/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com