python - 如何使用 scikit 的 Surprise 进行预测？-6ren

python - 如何使用 scikit 的 Surprise 进行预测？

转载作者：行者123 更新时间：2023-12-05 02:03:22

30

4

我无法理解 Surprise 的工作流程。我有一个用于训练的文件(我试图将其分为训练和验证)和一个用于测试数据的文件。我无法理解 Surprise Dataset 和 Trainset 之间的区别

# Import data
data_dir = 'DIRECTORY_NAME'
reader = Reader(rating_scale=(1, 5))

# Create pandas dataframes
train_valid_df = pd.read_csv(os.path.join(data_dir, 'TRAINING_FILENAME.csv'))
train_df, valid_df = train_test_split(train_valid_df, test_size=0.2)
test_df = pd.read_csv(os.path.join(data_dir, 'TEST_FILENAME.csv'))

# Create surprise Dataset objects
train_valid_Dataset = Dataset.load_from_df(train_valid_df[['user_id', 'item_id', 'rating']], reader)
train_Dataset = Dataset.load_from_df(train_df[['user_id', 'item_id', 'rating']], reader)
valid_Dataset = Dataset.load_from_df(valid_df[['user_id', 'item_id', 'rating']], reader)
test_Dataset = Dataset.load_from_df(test_df[['user_id', 'item_id', 'rating']], reader)

# Create surprise Trainset object (and testset object?)
train_Trainset = train_data.build_full_trainset()
valid_Testset = trainset.build_anti_testset()

然后，我创建我的预测器:

algo = KNNBaseline(k=60, min_k=2, sim_options={'name': 'msd', 'user_based': True})

现在，如果我想交叉验证我会做

cross_v = cross_validate(algo, all_data, measures=['mae'], cv=10, verbose=True)

哪个训练模型(？)，但如果我想使用固定的验证集，我该怎么办？这个:？

algo.fit(train_Trainset)

这样做之后，我试图得到一些预测:

predictions = algo.test(valid_Testset)
print(predictions[0])

结果是这样的但是当我尝试使用项目和用户 ID 号码进行预测时，它说这样的预测是不可能的:

print(algo.predict('13', '194'))
print(algo.predict('260', '338'))
print(algo.predict('924', '559'))

产量:

第一个用户/项目对来自训练反集，第二个来自验证集，第三个来自训练集。我不知道为什么会这样，而且我发现文档有时令人困惑。同样，许多在线教程似乎都在训练 pandas 数据帧，我因此收到了错误。任何人都可以澄清 surprise 的工作流程实际上是什么样的吗？我如何在测试集上进行训练然后做出预测？

谢谢!

最佳答案

希望这会有所帮助，因为您有单独的训练和测试，我们创建了与您的数据类似的东西:

from surprise import Dataset, KNNBaseline, Reader
import pandas as pd
import numpy as np
from surprise.model_selection import cross_validate
reader = Reader(rating_scale=(1, 5))

train_df = pd.DataFrame({'user_id':np.random.choice(['1','2','3','4'],100),
                         'item_id':np.random.choice(['101','102','103','104'],100),
                         'rating':np.random.uniform(1,5,100)})

valid_df = pd.DataFrame({'user_id':np.random.choice(['1','2','3','4'],100),
                         'item_id':np.random.choice(['101','102','103','104'],100),
                         'rating':np.random.uniform(1,5,100)})

然后我们需要将训练数据转换为 surprise.trainset ，类似于您所做的:

train_Dataset = Dataset.load_from_df(train_df[['user_id', 'item_id', 'rating']], reader)
valid_Dataset = Dataset.load_from_df(valid_df[['user_id', 'item_id', 'rating']], reader)

train_Dataset = train_Dataset.build_full_trainset()

对于拟合，您只需要 train_Dataset，对于交叉验证，我不确定您要做什么，我发现它超出了预测的问题范围，所以我们拟合:

algo = KNNBaseline(k=60, min_k=2, sim_options={'name': 'msd', 'user_based': True})
algo.fit(train_Dataset)

要进行预测，您需要以列表或数组的形式提供输入，其形状与您的输入相同，因此例如，如果我们要提供测试数据集，它将是:

testset = [valid_Dataset.df.loc[i].to_list() for i in range(len(valid_Dataset.df))]
algo.test(testset)[:2] 

[Prediction(uid='2', iid='103', r_ui=3.0224818872683845, est=2.8486558674146125, details={'actual_k': 25, 'was_impossible': False}),
 Prediction(uid='2', iid='103', r_ui=4.609064535195377, est=2.8486558674146125, details={'actual_k': 25, 'was_impossible': False})]

如果你想测试一个或两个值，它将是:

algo.test([['1','101',None]])

关于python - 如何使用 scikit 的 Surprise 进行预测？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65282827/

30

4

0

文章推荐： sqlalchemy - SQLAlchemy 中 2 列唯一的主键

文章推荐： visual-studio - 32 位 MASM 模式与 64 位有何不同？

文章推荐： docker - 发布构建工件任务结果 'path does not exist'错误

文章推荐： python - 请指导在推送到 Firebase 时循环通过 DataFrame

scikit-learn - scikit learn中MinMaxScaler中属性min_的含义
来自文档: sklearn.preprocessing.MinMaxScaler.min_ : ndarray, shape (n_features,) Per feature adjustment
scikit-learn - scikit svm回归预测恒定结果
这是我的数据:(我重置了索引。日期应该是索引) Date A B C D 0 2013-10-07 -0.002
scikit-learn - Scikit - 更改阈值以创建多个混淆矩阵
我正在构建一个分类器，通过贷款俱乐部数据，选择最好的 X 笔贷款。我训练了一个随机森林，并创建了通常的 ROC 曲线、混淆矩阵等。混淆矩阵将分类器的预测(森林中树木的多数预测)作为参数。但是，我希望
scikit-learn - scikit-learn 中的成本敏感分析
是否有类似于的 scikit-learn 方法/类元成本在 Weka 或其他实用程序中实现的算法以执行常量敏感分析？最佳答案不，没有。部分分类器提供 class_weight和 sample_
scikit-learn - Scikit Learn 分层交叉验证中的差异
我发现使用相同数据的两种交叉验证技术之间的分类性能存在差异。我想知道是否有人可以阐明这一点。方法一:cross_validation.train_test_split 方法 2:分层折叠。具有相同
scikit-learn - scikit-learn 中嵌套交叉验证的令人困惑的例子
我正在查看 scikit-learn 文档中的这个示例:http://scikit-learn.org/0.18/auto_examples/model_selection/plot_nested_c
scikit-learn - scikit-learn 中的哪些估计器不支持稀疏矩阵？
我想训练一个具有很多标称属性的数据集。我从一些帖子中注意到，要转换标称属性必须将它们转换为重复的二进制特征。另外据我所知，这样做在概念上会使数据集稀疏。我也知道 scikit-learn 使用稀疏矩阵
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - scikit-learn 的进度条？
有没有办法让 scikit-learn 中的 fit 方法有一个进度条？是否可以包含自定义的类似 Pyprind 的内容？ ? 最佳答案如果您使用 verbose=1 初始化模型调用前 fit你应
scikit-learn - scikit-learn 中交叉验证的一种标准错误规则
我正在尝试使用 grisSearchCV 在 scikit-learn 中拟合一些模型，并且我想使用“一个标准错误”规则来选择最佳模型，即从分数在 1 以内的模型子集中选择最简约的模型最好成绩的标准误
scikit-learn - 是否可以在 Scikit-learn 中使用自定义的决策树分类器？
我有一个预定义的决策树，它是根据基于知识的拆分构建的，我想用它来进行预测。我可以尝试从头开始实现决策树分类器，但那样我就无法在 Scikit 函数中使用 predict 等内置函数。有没有办法将我的树
scikit-learn - 使用随机森林时在 scikit-learn 中表示因子变量的方法是什么？
我正在使用随机森林解决分类问题。为此，我决定使用 Python 库 scikit-learn。但我对随机森林算法和这个工具都很陌生。我的数据包含许多因子变量。我用谷歌搜索，发现像我们在线性回归中所做的
scikit-learn - 如何在 Scikit-learn 管道中访问回归器的权重
我使用 Keras 回归器对数据进行回归拟合。我使用 Scikit-learn wrapper 和 Pipeline 来首先标准化数据，然后将其拟合到 Keras 回归器上。有点像这样: from s
scikit-learn - 在 scikit-learn 中按名称获取评分函数
在 scikit-learn ，有一个的概念评分函数 .如果我们有一些预测标签和真实标签，我们可以通过调用 scoring(y_true, y_predict) 来获得分数。 .这种评分函数的一个例
scikit-learn - scikit learn : train_test_split, 我可以确保在不同的数据集上进行相同的拆分吗
我知道 train_test_split 方法将数据集拆分为随机训练和测试子集。并且使用 random_state=int 可以确保每次调用该方法时我们对该数据集都有相同的拆分。我的问题略有不同。
scikit-learn - 如何在 scikit-learn 中为最近邻居使用用户定义的度量？
我正在使用 scikit-learn 0.18.dev0。我知道之前有人问过完全相同的问题 here .我尝试了那里提供的答案，但出现以下错误 >>> def mydist(x, y): ...
scikit-learn - 在 scikit-learn 中结合递归特征消除和网格搜索
我试图在 scikit-learn 中结合递归特征消除和网格搜索。正如您从下面的代码(有效)中看到的那样，我能够从网格搜索中获得最佳估计量，然后将该估计量传递给 RFECV。但是，我宁愿先进行 RFE

首页

博学

6Ren·AI

商城

python - 如何使用 scikit 的 Surprise 进行预测？