gpt4 book ai didi

python - 如何对产品推荐数据集使用 k 均值

转载 作者:行者123 更新时间:2023-12-01 00:50:00 26 4
gpt4 key购买 nike

我有一个数据集,其中的列标题为产品名称、品牌、评级(1:5)、评论文本、评论有用性。我需要的是提出一个使用评论的推荐算法。我这里必须使用 python 进行编码。数据集采用.csv 格式。

为了识别数据集的性质,我需要在数据集上使用 kmeans。如何在此数据集上使用 k 均值?

因此我做了以下操作,
1.数据预处理,
2.回顾文本数据清理,
3.情感分析,
4.根据他们获得的情感值(通过情感分析给出)给出从1到5的情感评分,并将评论标记为非常负面、负面、中立、正面、非常正面。

在这些过程之后,我的数据集中有这些列:产品名称、品牌、评级(1:5)、评论文本、评论有用性、情感值(value)、情感标签。这是数据集https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing的链接

我尝试使用以下代码获取 k 的意思,它运行时没有错误。但我不知道这是有用的,或者是否有任何其他方法可以在此数据集上使用 kmeans 来获得其他一些有用的输出。要识别有关数据的更多信息,我应该如何在此数据集中使用 k 均值..

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
random_state=None, tol=0.0001, verbose=0)
plt.show()

最佳答案

你没有策划任何事情。

所以什么也没有显示。

关于python - 如何对产品推荐数据集使用 k 均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56642128/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com