- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试设置学习排名 lightgbm
,我有以下数据集,其中包含基于查询的用户交互:
df = pd.DataFrame({'QueryID': [1, 1, 1, 2, 2, 2],
'ItemID': [1, 2, 3, 1, 2, 3],
'Position': [1, 2 , 3, 1, 2, 3],
'Interaction': ['CLICK', 'VIEW', 'BOOK', 'BOOK', 'CLICK', 'VIEW']})
问题是正确设置训练数据集?文档提到使用
Dataset.set_group()
但它不是很清楚如何。
最佳答案
我把这个例子作为对 another question 的回答,即使它没有专门解决原始问题,但我希望它仍然有用!
这是我如何使用 LightGBM LambdaRank。
首先我们导入一些库并定义我们的数据集
import numpy as np
import pandas as pd
import lightgbm
df = pd.DataFrame({
"query_id":[i for i in range(100) for j in range(10)],
"var1":np.random.random(size=(1000,)),
"var2":np.random.random(size=(1000,)),
"var3":np.random.random(size=(1000,)),
"relevance":list(np.random.permutation([0,0,0,0,0, 0,0,0,1,1]))*100
})
这是数据框:
query_id var1 var2 var3 relevance
0 0 0.624776 0.191463 0.598358 0
1 0 0.258280 0.658307 0.148386 0
2 0 0.893683 0.059482 0.340426 0
3 0 0.879514 0.526022 0.712648 1
4 0 0.188580 0.279471 0.062942 0
.. ... ... ... ... ...
995 99 0.509672 0.552873 0.166913 0
996 99 0.244307 0.356738 0.925570 0
997 99 0.827925 0.827747 0.695029 1
998 99 0.476761 0.390823 0.670150 0
999 99 0.241392 0.944994 0.671594 0
[1000 rows x 5 columns]
这个数据集的结构很重要。在学习对任务进行排序时,您可能会使用一组查询。这里我定义了一个 1000 行的数据集,有 100 个查询,每行 10 行。这些查询也可以是可变长度的。
train_df = df[:800] # first 80%
validation_df = df[800:] # remaining 20%
qids_train = train_df.groupby("query_id")["query_id"].count().to_numpy()
X_train = train_df.drop(["query_id", "relevance"], axis=1)
y_train = train_df["relevance"]
qids_validation = validation_df.groupby("query_id")["query_id"].count().to_numpy()
X_validation = validation_df.drop(["query_id", "relevance"], axis=1)
y_validation = validation_df["relevance"]
现在这可能是你被困的事情。我们为每个数据帧创建这 3 个向量/矩阵。
X_train
是独立变量的集合,因此是模型的输入数据。
y_train
是您的因变量,即您要预测/排名的变量。最后,
qids_train
你是查询id吗?它们看起来像这样:
array([10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10])
这也是
X_train
:
var1 var2 var3
0 0.624776 0.191463 0.598358
1 0.258280 0.658307 0.148386
2 0.893683 0.059482 0.340426
3 0.879514 0.526022 0.712648
4 0.188580 0.279471 0.062942
.. ... ... ...
795 0.014315 0.302233 0.255395
796 0.247962 0.871073 0.838955
797 0.605306 0.396659 0.940086
798 0.904734 0.623580 0.577026
799 0.745451 0.951092 0.861373
[800 rows x 3 columns]
这是
y_train
:
0 0
1 0
2 0
3 1
4 0
..
795 0
796 0
797 1
798 0
799 0
Name: relevance, Length: 800, dtype: int64
请注意,它们都是 Pandas 数据帧,LightGBM 支持它们,但是 numpy 数组也可以使用。
model = lightgbm.LGBMRanker(
objective="lambdarank",
metric="ndcg",
)
我在这里只使用最少量的参数。随意查看 LightGBM 文档并使用更多参数,它是一个非常强大的库。
model.fit(
X=X_train,
y=y_train,
group=qids_train,
eval_set=[(X_validation, y_validation)],
eval_group=[qids_validation],
eval_at=10,
verbose=10,
)
开始训练并打印:
[10] valid_0's ndcg@10: 0.562929
[20] valid_0's ndcg@10: 0.55375
[30] valid_0's ndcg@10: 0.538355
[40] valid_0's ndcg@10: 0.548532
[50] valid_0's ndcg@10: 0.549039
[60] valid_0's ndcg@10: 0.546288
[70] valid_0's ndcg@10: 0.547836
[80] valid_0's ndcg@10: 0.552541
[90] valid_0's ndcg@10: 0.551994
[100] valid_0's ndcg@10: 0.542401
我希望我可以用这个简单的例子充分说明这个过程。如果您还有任何问题,请告诉我。
关于python - 如何使用lightgbm实现学习排名?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64294962/
我正在查看下面的示例代码, r element frequency and column name 并且想知道除了r中的排名和频率之外,是否有任何方法可以显示每列中每个元素的索引。因此,例如,所需的输
我有下表按 Id、Year DESC 排序 ID 年份有效 1 2011 1 1 2010 1 1 2009 0 1 2002 1 4 2013 1 4 2012 1 4 2011 1 等等。 我想要
鉴于此数据 Type Time Outcome Wanted Result 1 8:00 1 1 1 9:00 1 1 1 10:00 1 1 0
我正在寻找一种对两个句子进行排名/匹配的方法。 例如,取以下2个例句。 这是一个简短的句子。 这是一个包含很多单词的长句子。 我的新句子是这是一个句子。 我想将我的新句子与现有句子进行比较。我的新句子
我是 scikit 新手,我正在按照此处的示例 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_dat
我有一张 table : r_user | r_points | -------------------- user1 | 12 | user2 | 124 | use
我需要获得顶级玩家、给定玩家的排名以及与该给定玩家排名相关的少数玩家。 为了更清楚地解释,下表是我想要的,它显示了得分最高的 3 名玩家、给定玩家的排名 (id=11) 以及得分略高于和低于该给定玩家
我正在尝试创建一个排名(排名)查询。 我使用表users、schedule 和picks来计算排名。然而,这样做的缺陷是,如果用户未提交任何选择,则该用户将不会出现在排名中。 下面的查询返回所有已提交
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: High score system from my iphone game 我的查询是: $sql = "SELEC
我有一个玩家表和MatchUps表。 MatchUps 表具有一个 winner_id 列和一个 loser_id 列。我可以根据一次查询的胜率获得排名/排名吗?如果我能为每个玩家返回这样的东西,那就
我正在尝试创建一个排名/阶梯系统,其中排名最高的氏族 (1) 应位于顶部,排名为 2 的氏族应位于顶部,依此类推。但我无法让它工作......我尝试了不同的方法: PHP: $sql = mysql_
我需要一份游戏中排名最高的玩家列表。排名是即时计算的,数据取自两个表。我设法以正确的方式对它们进行排序,但是@rank:=0 -> @rank:=@rank+1 技巧,其中一个名为 rank 的附加字
下周末我们将进行一场包含 3 项资格赛(半决赛和决赛)的比赛。只有最好的 15 名参赛者才能参加半决赛。只有最好的 6 人才能参加总决赛。 在资格考试中,每项资格考试的分数从 0 到 100 不等 我
我正在尝试找出对我的产品进行加权的最佳方式,以及它们应该以何种顺序出现在主页等地方。 我想处理四个指标并将其转化为排名: 购买产品 产品有多久了(以天为单位) 产品被保存了多少次 产品被浏览了多少次
使用 @N=@N + 1 的经典技巧来获取某些有序列上的项目排名。现在在订购之前,我需要通过将它与其他表内部连接来从基表中过滤掉一些值。所以查询看起来像这样 -: SET @N=0; SELECT
我需要一些帮助来处理在 MySQL 中排名时的关系。例如: 播放器 |积分 玛丽:90 鲍勃:90 吉姆:65 凯文:12 Bob 和 Mary 应该都排名第一。吉姆应该是#3。凯文应该是#4。 My
我正在寻找一种算法,该算法可以为我提供具有特定强度的下一个排列。长度为 n 的排列由元素 (1,2,3,...n) 定义 排列的强度是多少? 长度为 10 的排列的强度定义为 |a1-a2|+|a2-
我正在编写一个具有信誉组件的电子商务引擎。我希望用户能够对项目进行评论和评分,并能够对评论进行评分。 用于根据“最佳”评论对项目进行排序的最佳算法是什么?它必须根据给出最佳评论的人获得的质量评论数量进
我有一个按游戏结果填满游戏的数据库表,想知道我是否可以计算以下内容: GP(玩过的游戏) 获胜 失败 积分(每胜2分,每负1分) 这是我的表结构: CREATE TABLE `results` (
我有一个 users 表,其中有一列名为 money_sent。我想按 money_sent 降序排列此表,然后找出特定用户的“排名”。 例如,只有 111 人比用户 12392 花费更多的钱,因此他
我是一名优秀的程序员,十分优秀!