gpt4 book ai didi

python - 将 NLTK 停用词与 scikit-learn 的 TfidfVectorizer 一起使用时出现 Unicode 警告

转载 作者:太空宇宙 更新时间:2023-11-03 14:22:39 26 4
gpt4 key购买 nike

我正在尝试使用来自 scikit-learn 的 Tf-idf Vectorizer,使用来自 NLTK 的西类牙语停用词:

from nltk.corpus import stopwords

vectorizer = TfidfVectorizer(stop_words=stopwords.words("spanish"))

问题是我收到以下警告:

/home/---/.virtualenvs/thesis/local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py:122: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
tokens = [w for w in tokens if w not in stop_words]

有解决这个问题的简单方法吗?

最佳答案

其实这个问题比我想象的要容易解决。这里的问题是 NLTK 不返回 unicode 对象,而是返回 str 对象。所以我需要在使用它们之前从 utf-8 解码它们:

stopwords = [word.decode('utf-8') for word in stopwords.words('spanish')]

关于python - 将 NLTK 停用词与 scikit-learn 的 TfidfVectorizer 一起使用时出现 Unicode 警告,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25443802/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com