gpt4 book ai didi

python - 更快地删除 pandas 数据框列中的标点符号和特殊字符的方法

转载 作者:太空宇宙 更新时间:2023-11-04 02:34:05 26 4
gpt4 key购买 nike

我正在使用下面的代码从 pandas 数据框中的列中删除特殊字符和标点符号。但是这种使用 regex.sub 的方法并不省时。我可以尝试其他选项来提高时间效率并删除标点符号和特殊字符吗?或者我删除特殊字符并将其解析回列的方式,pandas dataframe 导致了我的主要计算消耗?

for n, string in data['text'].iteritems():
data['text'] = re.sub('([{string.punctuation}“”¨«»®´·º½¾¿¡§£₤‘’])','', string)

最佳答案

一种方法是只保留字母数字。考虑这个数据框

df=pd.DataFrame({'Text':['#^#346fetvx@!.,;:', 'fhfgd54@!#><?']})

Text
0 #^#346fetvx@!.,;:
1 fhfgd54@!#><?

你可以使用

df['Text'] = df['Text'].str.extract('(\w+)', expand = False)

Text
0 346fetvx
1 fhfgd54

关于python - 更快地删除 pandas 数据框列中的标点符号和特殊字符的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48348882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com