gpt4 book ai didi

python - countVectorizer Scikit-learn 中的特殊字符

转载 作者:太空狗 更新时间:2023-10-30 00:45:39 27 4
gpt4 key购买 nike

考虑这个可运行的例子:

#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l = vectorizer.get_feature_names()

for u in l:
print u

输出将是

aba
hej
ho
na
ter

为什么 åäö 被删除了?请注意,矢量化器 strip_accents=None 是默认值。如果您能帮我解决这个问题,我将不胜感激。

最佳答案

这是一种有意减少维度的方法,同时使向量化器能够容忍输入,而作者并不总是与强调字符的使用保持一致。

如果您想禁用该功能,只需将 strip_accents=None 传递给 CountVectorizer,如 documentation of this class 中所述.

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> CountVectorizer(strip_accents='ascii').build_analyzer()(u'\xe9t\xe9')
[u'ete']
>>> CountVectorizer(strip_accents=False).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']
>>> CountVectorizer(strip_accents=None).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']

关于python - countVectorizer Scikit-learn 中的特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16080726/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com