gpt4 book ai didi

python - 为 kmeans scikit 堆叠 3 个变量

转载 作者:行者123 更新时间:2023-11-30 08:50:18 25 4
gpt4 key购买 nike

我有 3 个变量,我想将它们放入 kmeans 模型中。第一个是 TFIDF 向量,第一个是计数向量,第三个是文档中的单词数 (sentence_list_len)。

这是我的代码:

vectorizer=TfidfVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)

count_vectorizer=CountVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
count_vectorized=count_vectorizer.fit_transform(sentence_list)

sentence_list_len # for each document, how many words are there

km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)

如何将这 3 个变量拟合到 km.fit 中?具体来说,我如何堆叠所有三个并将其提供给 km.fit()?

最佳答案

简单地连接你的向量。请参阅 numpy.concatenate 或 numpy.vstack/numpy.hstack。但是,请注意,kmeans 对于高维数据效果不佳,并且它可能会忽略“小”特征。您具有不同尺度的三种类型的特征,这将严重影响聚类结果。一般来说,kmeans 并不是处理 NLP 聚类任务的好方法。

关于python - 为 kmeans scikit 堆叠 3 个变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27515252/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com