gpt4 book ai didi

scikit-learn - SKLearn TF-IDF 丢弃数字?

转载 作者:行者123 更新时间:2023-12-04 04:37:36 26 4
gpt4 key购买 nike

我正在做文本分析,我想忽略只是数字的“单词”。例如。来自文本“这是 000 斯巴达!”只应使用“this”、“is”和“Sparta”这三个词。有没有办法做到这一点?如何?

最佳答案

TfidfVectorizer 的默认标记模式是 u'(?u)\\b\\w\\w+\\b' ,它匹配至少有两个单词字符的单词,即 [a-zA-Z0-9_] ;您可以根据需要修改 token_pattern,例如,正则表达式 (?ui)\\b\\w*[a-z]+\\w*\\b 确保它匹配一个单词但至少包含一个字母:

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(token_pattern=u'(?ui)\\b\\w*[a-z]+\\w*\\b')

text = ["This is 000 Sparta!"]
tfidf_matrix = tf.fit_transform(text)
feature_names = tf.get_feature_names()

print(feature_names)
[u'is', u'sparta', u'this']

关于scikit-learn - SKLearn TF-IDF 丢弃数字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45981037/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com