gpt4 book ai didi

python - k-means 中特征的权重

转载 作者:太空宇宙 更新时间:2023-11-03 14:58:56 25 4
gpt4 key购买 nike

我有一组想要聚类的维基百科文本。

代码如下:

import pandas as pd                                             
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

#parameters
maximum_features = 1000000
max_intera = 300

#load text file
wiki = pd.read_csv('people_wiki.csv')

#TF-IDF vectorization
vectorizer = TfidfVectorizer(max_features=maximum_features, norm = 'l2', stop_words='english')
tfidf = vectorizer.fit_transform(wiki['text'])

#clustering
kmeans = KMeans(n_clusters=3, random_state=0, init='k-means++', max_iter = max_intera).fit(tfidf)

我想知道每个特征的权重,如下所示(她 0.025 她:0.017 .....):

enter image description here

总之:我想要每个特征(单词)的权重,并呈现 5 个更相关的特征。

文件“people_wiki.csv”位于此处:

https://ufile.io/udg1y

最佳答案

尝试使用此解决方案:

print(tfidf.idf_)

关于python - k-means 中特征的权重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45286863/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com