gpt4 book ai didi

python - 在列表 python 上应用正则表达式模式列表

转载 作者:太空狗 更新时间:2023-10-29 18:26:06 25 4
gpt4 key购买 nike

我有一个数据框,其中 txt 列包含一个列表。我想使用函数 clean_text() 清理 txt 列。

data = {'value':['abc.txt', 'cda.txt'], 'txt':['[''2019/01/31-11:56:23.288258 1886     7F0ED4CDC704     asfasnfs: remove datepart'']',
'[''2019/02/01-11:56:23.288258 1886 7F0ED4CDC704 asfasnfs: remove datepart'']']}
df = pandas.DataFrame(data=data)

def clean_text(text):
"""
:param text: it is the plain text
:return: cleaned text
"""
patterns = [r"^{53}",
r"[A-Za-z]+[\d]+[\w]*|[\d]+[A-Za-z]+[\w]*",
r"[-=/':,?${}\[\]-_()>.~" ";+]"]

for p in patterns:
text = re.sub(p, '', text)

return text

我的解决方案:

df['txt'] = df['txt'].apply(lambda x: clean_text(x))

但是我遇到以下错误:错误

sre_constants.error: nothing to repeat at position 1

最佳答案

^{53} 不是有效的正则表达式,因为重复符 {53} 前面必须有可以重复的字符或模式。如果您想让它验证至少 53 个字符长的字符串,您可以改用以下模式:

^.{53}

关于python - 在列表 python 上应用正则表达式模式列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54620212/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com