python - 如何使用lightgbm实现学习排名？-6ren

python - 如何使用lightgbm实现学习排名？

转载作者：行者123 更新时间：2023-12-04 00:53:52

24

4

我正在尝试设置学习排名 lightgbm ，我有以下数据集，其中包含基于查询的用户交互:

df = pd.DataFrame({'QueryID': [1, 1, 1, 2, 2, 2], 
                   'ItemID': [1, 2, 3, 1, 2, 3], 
                   'Position': [1, 2 , 3, 1, 2, 3], 
                   'Interaction': ['CLICK', 'VIEW', 'BOOK', 'BOOK', 'CLICK', 'VIEW']})

问题是正确设置训练数据集？文档提到使用 Dataset.set_group()但它不是很清楚如何。

最佳答案

我把这个例子作为对 another question 的回答，即使它没有专门解决原始问题，但我希望它仍然有用!
这是我如何使用 LightGBM LambdaRank。
首先我们导入一些库并定义我们的数据集

import numpy as np
import pandas as pd
import lightgbm

df = pd.DataFrame({
    "query_id":[i for i in range(100) for j in range(10)],
    "var1":np.random.random(size=(1000,)),
    "var2":np.random.random(size=(1000,)),
    "var3":np.random.random(size=(1000,)),
    "relevance":list(np.random.permutation([0,0,0,0,0, 0,0,0,1,1]))*100
})

这是数据框:

     query_id      var1      var2      var3  relevance
0           0  0.624776  0.191463  0.598358          0
1           0  0.258280  0.658307  0.148386          0
2           0  0.893683  0.059482  0.340426          0
3           0  0.879514  0.526022  0.712648          1
4           0  0.188580  0.279471  0.062942          0
..        ...       ...       ...       ...        ...
995        99  0.509672  0.552873  0.166913          0
996        99  0.244307  0.356738  0.925570          0
997        99  0.827925  0.827747  0.695029          1
998        99  0.476761  0.390823  0.670150          0
999        99  0.241392  0.944994  0.671594          0

[1000 rows x 5 columns]

这个数据集的结构很重要。在学习对任务进行排序时，您可能会使用一组查询。这里我定义了一个 1000 行的数据集，有 100 个查询，每行 10 行。这些查询也可以是可变长度的。
现在对于每个查询，我们都有一些变量，我们也得到了相关性。我在这里使用了数字 0 和 1，所以这基本上是对于每个查询(10 行的集合)的任务，我想创建一个模型，将更高的相关性分配给具有 1 相关性的 2 行。
不管怎样，我们继续设置 LightGBM。我将数据集拆分为训练集和验证集，但您可以随心所欲。我建议在训练期间至少使用 1 个验证集。

train_df = df[:800]  # first 80%
validation_df = df[800:]  # remaining 20%

qids_train = train_df.groupby("query_id")["query_id"].count().to_numpy()
X_train = train_df.drop(["query_id", "relevance"], axis=1)
y_train = train_df["relevance"]

qids_validation = validation_df.groupby("query_id")["query_id"].count().to_numpy()
X_validation = validation_df.drop(["query_id", "relevance"], axis=1)
y_validation = validation_df["relevance"]

现在这可能是你被困的事情。我们为每个数据帧创建这 3 个向量/矩阵。 X_train是独立变量的集合，因此是模型的输入数据。 y_train是您的因变量，即您要预测/排名的变量。最后， qids_train你是查询id吗？它们看起来像这样:

array([10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10])

这也是 X_train :

         var1      var2      var3
0    0.624776  0.191463  0.598358
1    0.258280  0.658307  0.148386
2    0.893683  0.059482  0.340426
3    0.879514  0.526022  0.712648
4    0.188580  0.279471  0.062942
..        ...       ...       ...
795  0.014315  0.302233  0.255395
796  0.247962  0.871073  0.838955
797  0.605306  0.396659  0.940086
798  0.904734  0.623580  0.577026
799  0.745451  0.951092  0.861373

[800 rows x 3 columns]

这是 y_train :

0      0
1      0
2      0
3      1
4      0
      ..
795    0
796    0
797    1
798    0
799    0
Name: relevance, Length: 800, dtype: int64

请注意，它们都是 Pandas 数据帧，LightGBM 支持它们，但是 numpy 数组也可以使用。
如您所见，它们指示每个查询的长度。如果您的查询是可变长度的，那么此列表中的数字也会有所不同。在我的示例中，所有查询的长度都相同。
我们对验证集做完全相同的事情，然后我们准备开始 LightGBM 模型设置和训练。我使用 SKlearn API，因为我熟悉那个。

model = lightgbm.LGBMRanker(
    objective="lambdarank",
    metric="ndcg",
)

我在这里只使用最少量的参数。随意查看 LightGBM 文档并使用更多参数，它是一个非常强大的库。
为了开始训练过程，我们调用模型上的拟合函数。这里我们指定我们想要 NDCG@10，并希望函数每 10 次迭代打印一次结果。

model.fit(
    X=X_train,
    y=y_train,
    group=qids_train,
    eval_set=[(X_validation, y_validation)],
    eval_group=[qids_validation],
    eval_at=10,
    verbose=10,
)

开始训练并打印:

[10]    valid_0's ndcg@10: 0.562929
[20]    valid_0's ndcg@10: 0.55375
[30]    valid_0's ndcg@10: 0.538355
[40]    valid_0's ndcg@10: 0.548532
[50]    valid_0's ndcg@10: 0.549039
[60]    valid_0's ndcg@10: 0.546288
[70]    valid_0's ndcg@10: 0.547836
[80]    valid_0's ndcg@10: 0.552541
[90]    valid_0's ndcg@10: 0.551994
[100]   valid_0's ndcg@10: 0.542401

我希望我可以用这个简单的例子充分说明这个过程。如果您还有任何问题，请告诉我。

关于python - 如何使用lightgbm实现学习排名？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64294962/

24

4

0

文章推荐： pine-script - Pine Script 中的当前价格指标

r 元素频率和索引，排名
我正在查看下面的示例代码， r element frequency and column name 并且想知道除了r中的排名和频率之外，是否有任何方法可以显示每列中每个元素的索引。因此，例如，所需的输
sql - 如何根据列的变化值对记录进行分组/排名？
我有下表按 Id、Year DESC 排序 ID 年份有效 1 2011 1 1 2010 1 1 2009 0 1 2002 1 4 2013 1 4 2012 1 4 2011 1 等等。我想要
SQL 排名，同时保持时间排序
鉴于此数据 Type Time Outcome Wanted Result 1 8:00 1 1 1 9:00 1 1 1 10:00 1 1 0
Java - 排名/匹配句子
我正在寻找一种对两个句子进行排名/匹配的方法。例如，取以下2个例句。这是一个简短的句子。这是一个包含很多单词的长句子。我的新句子是这是一个句子。我想将我的新句子与现有句子进行比较。我的新句子
python - Scikit分类比较/排名
我是 scikit 新手，我正在按照此处的示例 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_dat
Mysql - 获取用户上下5行(排名)
我有一张 table : r_user | r_points | -------------------- user1 | 12 | user2 | 124 | use
MySql - 排名，给定玩家的排名及周围
我需要获得顶级玩家、给定玩家的排名以及与该给定玩家排名相关的少数玩家。为了更清楚地解释，下表是我想要的，它显示了得分最高的 3 名玩家、给定玩家的排名 (id=11) 以及得分略高于和低于该给定玩家
MySQL右外连接空值，所有用户的排名(排名)
我正在尝试创建一个排名(排名)查询。我使用表users、schedule 和picks来计算排名。然而，这样做的缺陷是，如果用户未提交任何选择，则该用户将不会出现在排名中。下面的查询返回所有已提交
php - 选择标识符并显示其中的行/排名
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: High score system from my iphone game 我的查询是: $sql = "SELEC
mysql - 根据比赛表中的胜率获取排名/排名
我有一个玩家表和MatchUps表。 MatchUps 表具有一个 winner_id 列和一个 loser_id 列。我可以根据一次查询的胜率获得排名/排名吗？如果我能为每个玩家返回这样的东西，那就
php - 排名/天梯系统
我正在尝试创建一个排名/阶梯系统，其中排名最高的氏族 (1) 应位于顶部，排名为 2 的氏族应位于顶部，依此类推。但我无法让它工作......我尝试了不同的方法: PHP: $sql = mysql_
MySQL 排名(排名靠前的用户)
我需要一份游戏中排名最高的玩家列表。排名是即时计算的，数据取自两个表。我设法以正确的方式对它们进行排序，但是@rank:=0 -> @rank:=@rank+1 技巧，其中一个名为 rank 的附加字
mySQL 排名(和抽奖)
下周末我们将进行一场包含 3 项资格赛(半决赛和决赛)的比赛。只有最好的 15 名参赛者才能参加半决赛。只有最好的 6 人才能参加总决赛。在资格考试中，每项资格考试的分数从 0 到 100 不等我
php - 排名/人气系统
我正在尝试找出对我的产品进行加权的最佳方式，以及它们应该以何种顺序出现在主页等地方。我想处理四个指标并将其转化为排名: 购买产品产品有多久了(以天为单位) 产品被保存了多少次产品被浏览了多少次
使用变量在存在索引的情况下进行 MySQL 排名
使用 @N=@N + 1 的经典技巧来获取某些有序列上的项目排名。现在在订购之前，我需要通过将它与其他表内部连接来从基表中过滤掉一些值。所以查询看起来像这样 -: SET @N=0; SELECT
并列情况下的 MySQL 排名
我需要一些帮助来处理在 MySQL 中排名时的关系。例如: 播放器 |积分玛丽:90 鲍勃:90 吉姆:65 凯文:12 Bob 和 Mary 应该都排名第一。吉姆应该是#3。凯文应该是#4。 My
arrays - 具有特定强度的下一个排列/排名
我正在寻找一种算法，该算法可以为我提供具有特定强度的下一个排列。长度为 n 的排列由元素 (1,2,3,...n) 定义排列的强度是多少？长度为 10 的排列的强度定义为 |a1-a2|+|a2-
algorithm - 排名/信誉算法
我正在编写一个具有信誉组件的电子商务引擎。我希望用户能够对项目进行评论和评分，并能够对评论进行评分。用于根据“最佳”评论对项目进行排序的最佳算法是什么？它必须根据给出最佳评论的人获得的质量评论数量进
MySQL Volley 排名
我有一个按游戏结果填满游戏的数据库表，想知道我是否可以计算以下内容: GP(玩过的游戏) 获胜失败积分(每胜2分，每负1分) 这是我的表结构: CREATE TABLE `results` (
MySQL:获取特定行的行号(排名)
我有一个 users 表，其中有一列名为 money_sent。我想按 money_sent 降序排列此表，然后找出特定用户的“排名”。例如，只有 111 人比用户 12392 花费更多的钱，因此他

首页

博学

6Ren·AI

商城

python - 如何使用lightgbm实现学习排名？