gpt4 book ai didi

python - 如何在计算文本中单词准确度的频率时忽略某些单词?

转载 作者:太空宇宙 更新时间:2023-11-04 07:18:05 24 4
gpt4 key购买 nike

在计算文本中单词准确度的频率时,如何忽略诸如“a”、“the”之类的单词?

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

df= pd.DataFrame({'phrase': pd.Series('The large distance between cities. The small distance. The')})
f = CountVectorizer().build_tokenizer()(str(df['phrase']))

result = collections.Counter(f).most_common(1)

print result

答案将是The。但我想将 distance 作为最常用的词。

最佳答案

最好避免像这样开始计数条目。

ignore = {'the','a','if','in','it','of','or'}
result = collections.Counter(x for x in f if x not in ignore).most_common(1)

关于python - 如何在计算文本中单词准确度的频率时忽略某些单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32768331/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com