machine-learning - 使用catboost进行排名任务-6ren

machine-learning - 使用catboost进行排名任务

转载作者：行者123 更新时间：2023-11-30 08:34:03

24

4

我想知道如何为排名任务配置catboost。 catboost 主页暗示它可以用于排名任务。然而，对任务进行排名的文档似乎很少: https://tech.yandex.com/catboost/doc/dg/concepts/cli-reference_train-model-docpage/

所有教程都集中于对单个实例进行分类: https://github.com/catboost/catboost/tree/master/catboost/tutorials

理想情况下会有一些类似于 LightGBM 的文档或示例进行排名:https://github.com/Microsoft/LightGBM/tree/master/examples/lambdarank

有人使用catboost进行排名吗？

最佳答案

从0.9版本开始，CatBoost支持多种排名模式。要使用排名模式，您需要构建一个包含对象组(用户 group_id )的数据集。该算法将尝试找到组内的最佳顺序。

CatBoost中有两种成对模式，PairLogit和PairLogitPairwise。对于成对模式，您需要提供对作为数据集的一部分。 PairLogit 速度要快得多，但 PairLogitPairwise 可能会在大型数据集上提供更好的质量。

有两种排名模式 YetiRank 和 YetiRankPairwise。要使用它们，您需要在数据集中有标签。它们之间的区别是相同的，YetiRankPairwise 的计算成本更高，但可能会给出更好的结果。

还有排名和回归之间的混合 (QueryRMSE)、排名和分类之间的混合 (QueryCrossEntropy) 以及 QuerySoftMax 损失。

关于machine-learning - 使用catboost进行排名任务，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45909390/

24

4

0

文章推荐： machine-learning - 深度学习: small dataset with keras : local minima

文章推荐： java - Swagger 2 & spring MVC - 忽略 war 上下文路径

文章推荐： r - R 错误中的 K 均值聚类

catboost - CatBoost 中的多类多标签分类
我需要使用 CatBoost 执行多类多标签分类。示例数据: X = [[1, 2, 3, 4], [2, 3, 5, 1], [4, 5, 1, 3]] y = [[3, 1], [2, 8],
catboost - 如何使用 catboost 过拟合检测器
我试图了解 catboost 过拟合检测器。它在这里描述: https://tech.yandex.com/catboost/doc/dg/concepts/overfitting-detector-
python - Catboost 预测返回错误特征在数据集中标记为不同
我用 catboost 训练了二元分类器，测试数据中的相同特征会返回此错误； catboost/libs/data/model_dataset_compatibility.cpp:47: Featur
python - Catboost 默认超参数
如何返回 CatBoost 模型的所有超参数？注意:我认为这不是 Print CatBoost hyperparameters 的复制品因为那个问题/答案不能满足我的需要。例如，使用 sklear
python - 贝叶斯优化应用于 CatBoost
这是我在 CatBoost 中应用 BayesSearch 的尝试: from catboost import CatBoostClassifier from skopt import BayesSe
python - catboost 分类器可以解决类别不平衡问题吗？
我正在为我的二元分类模型使用 catboost 分类器，其中我有一个高度不平衡的数据集:0 -> 115000 和 1 -> 10000。有人可以指导我如何在 catboostclassifier 中
python - Catboost plot_tree 理解
当从 catboost 绘制一棵树时，它在叶子中显示 val；这些值代表什么？我在他们关于绘图的官方教程中找不到答案，在我能找到的任何地方也找不到任何此类问题的答案。喜欢: LightGBM plo
catboost - 模型特征重要性和 SHAP 汇总图的差异
我一直在玩玩具数据集，以了解更多关于 shap 库和用法的信息。我发现这个问题是 catboost 回归模型的特征重要性与 shap 库中 summary_plot 的特征重要性不同。我正在分析 X
python - 如何获得 catboost 可视化以显示类别
考虑以下数据: import pandas as pd y_train = pd.DataFrame({0: {14194: 'Fake', 13891: 'Fake', 13247: 'Fake',
python - 如何抑制 CatBoost 迭代结果？
我正在尝试使用 CatBoost 来拟合二元模型。当我使用以下代码时，我想到了 verbose=False可以帮助抑制迭代日志。但它没有。有没有办法避免打印迭代？ model=CatBoostClas
python - 如何为 catboost 创建自定义评估指标？
类似的问题: Python Catboost: Multiclass F1 score custom metric Catboost 教程 https://catboost.ai/docs/conce
machine-learning - catboost 算法中对称树背后的直觉是什么？
我一直在研究 catboost 算法，我很难看出使用对称树的意义。在这方面，我在他们的github中找到了: An important part of the algorithm is that it
python - 打印 CatBoost 超参数
训练模型后如何打印 CatBoost 超参数？在 sklearn我们可以打印模型对象，它将显示所有参数，但在 catboost 中它只打印对象的引用: . from catboost import
python - Catboost 理解 - 分类值的转换
我有一些关于 catboost 的愚蠢问题。从catboost的文档中，我了解到行之间存在一些排列/洗牌，用于分类数据转换。( https://tech.yandex.com/catboost/do
python - Catboost 回归。函数外推
我是 ML 新手，对 catboost 有疑问。所以，我想预测函数值(例如 cos | sin 等)。我回顾了一切，但我的预测始终是直线是否可能，如果可能，我该如何解决我的问题我很高兴收到任何评论
machine-learning - CatBoost 基准测试中使用哪种预处理来编码分类变量？
我最近开始使用 CatBoost 来快速构建机器学习模型的原型(prototype)，受到杰出的 performance benchmarks 的启发。 CatBoost 与 XGBoost、Ligh
python - catboost:带有观察权重的评估/测试集
我正在处理一个包含人员列表(按财政代码索引)的数据集。目标变量是二进制的(1:买一本书，0:否则)。所有预测变量都是分类的(例如:国籍、城市、道路、收入类别等)。财政代码可以重复两次，每个实例/观察都
python - CATBoost 和 GridSearch
model.fit(train_data, y=label_data, eval_set=eval_dataset) eval_dataset = Pool(val_data, val_labels)
machine-learning - XGBoost/CatBoost 中具有大量类别的分类变量
我有一个关于随机森林的问题。想象一下，我有关于用户与项目交互的数据。项目数量很大，大约 10 000 个。我的随机森林输出应该是用户可能与之交互的项目(如推荐系统)。对于任何用户，我想使用一个描述用户
machine-learning - Catboost:l2_leaf_reg 的合理值是多少？
在大型数据集(约 1M 行，500 列)上运行 catboost，我得到:训练已停止(迭代 0 上的退化解，可能太小 l2 正则化，尝试增加它)。我如何猜测 l2 正则化值应该是多少？与y的平均值、

首页

博学

6Ren·AI

商城

machine-learning - 使用catboost进行排名任务