gpt4 book ai didi

Python从文本文件中删除标点符号

转载 作者:太空宇宙 更新时间:2023-11-04 00:42:37 25 4
gpt4 key购买 nike

我正试图从我的文本文件中删除标点符号列表,但我只有一个问题是单词与连字符分开。例如,如果我有“post-trauma”这个词,我会得到“posttrama”,相反我想得到“post”“trauma”。

我的代码是:

 punct=['!', '#', '"', '%', '$', '&', ')', '(', '+', '*', '-'] 

with open(myFile, "r") as f:
text= f.read()
remove = '|'.join(REMOVE_LIST) #list of word to remove
regex = re.compile(r'('+remove+r')', flags=re.IGNORECASE)
out = regex.sub("", text)

delta= " ".join(out.split())
txt = "".join(c for c in delta if c not in punct )

有办法解决吗?

最佳答案

我相信你可以在 delta 上调用内置的 replace 函数,所以你的最后一行将变成如下:

txt = "".join(c for c in delta.replace("-", " ") if c not in punct )

这意味着您文本中的所有连字符都将变成空格,因此这些词将被视为是分开的。

关于Python从文本文件中删除标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41225435/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com