gpt4 book ai didi

python - 如何从txt(就职典礼)中删除标点符号?

转载 作者:太空宇宙 更新时间:2023-11-03 17:13:51 24 4
gpt4 key购买 nike

下面的代码设法从就职典礼中的txt中删除所有停用词,但我唯一的问题是我还需要从列表中删除标点符号。关于我如何做到这一点的任何帮助。

def content_text(inaugural):
stopwords = set(nltk.corpus.stopwords.words('english'))
w_stp = Counter()
wo_stp = Counter()
for word in inaugural:

word = word.lower()
if word in stopwords:
w_stp.update([word])
else:

wo_stp.update([word])

return [k for k,_ in w_stp.most_common(10)],[y for y,_ in wo_stp.most_common(10)]

print(content_text(nltk.corpus.inaugural.words('1861-Lincoln.txt', )))
print(content_text(nltk.corpus.inaugural.words('1941-Roosevelt.txt', )))
print(content_text(nltk.corpus.inaugural.words('1945-Roosevelt.txt', )))
print(content_text(nltk.corpus.inaugural.words('1981-Reagan.txt', )))
print(content_text(nltk.corpus.inaugural.words('1985-Reagan.txt', )))

最佳答案

实现此目的的一个好方法是使用正则表达式:

import re    
re.sub('[^A-Za-z0-9]+', ' ', nltk.corpus.inaugural.words(**replace with speeches**))

这将删除所有非单词或数字的字符。

关于python - 如何从txt(就职典礼)中删除标点符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33832515/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com