- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
任何人都可以分享一个关于如何使用 lightgbm 训练排名模型的数据的最小示例吗?最好使用 Scikit-Lean api?我正在努力解决的是如何传递标签数据。我的数据是页面展示次数,如下所示:
X:
user1, feature1, ...
user2, feature1, ...
y:
user1, page1, 10 impressions
user1, page2, 6 impressions
user2, page1, 9 impressions
到目前为止,我想我已经弄清楚了
group
在 scikit-klearn api(标准 api 中的 set_group()
)中是一个长度列表 set(user_ids)
,其中每个条目是该用户访问过的不同页面的数量。在上面的例子中,那将是 (2, 1)。这个列表的总和将等于我的训练集的长度。 最佳答案
这是我如何使用 LightGBM LambdaRank。
首先我们导入一些库并定义我们的数据集
import numpy as np
import pandas as pd
import lightgbm
df = pd.DataFrame({
"query_id":[i for i in range(100) for j in range(10)],
"var1":np.random.random(size=(1000,)),
"var2":np.random.random(size=(1000,)),
"var3":np.random.random(size=(1000,)),
"relevance":list(np.random.permutation([0,0,0,0,0, 0,0,0,1,1]))*100
})
这是数据框:
query_id var1 var2 var3 relevance
0 0 0.624776 0.191463 0.598358 0
1 0 0.258280 0.658307 0.148386 0
2 0 0.893683 0.059482 0.340426 0
3 0 0.879514 0.526022 0.712648 1
4 0 0.188580 0.279471 0.062942 0
.. ... ... ... ... ...
995 99 0.509672 0.552873 0.166913 0
996 99 0.244307 0.356738 0.925570 0
997 99 0.827925 0.827747 0.695029 1
998 99 0.476761 0.390823 0.670150 0
999 99 0.241392 0.944994 0.671594 0
[1000 rows x 5 columns]
这个数据集的结构很重要。在学习对任务进行排序时,您可能会使用一组查询。这里我定义了一个 1000 行的数据集,有 100 个查询,每行 10 行。这些查询也可以是可变长度的。
train_df = df[:800] # first 80%
validation_df = df[800:] # remaining 20%
qids_train = train_df.groupby("query_id")["query_id"].count().to_numpy()
X_train = train_df.drop(["query_id", "relevance"], axis=1)
y_train = train_df["relevance"]
qids_validation = validation_df.groupby("query_id")["query_id"].count().to_numpy()
X_validation = validation_df.drop(["query_id", "relevance"], axis=1)
y_validation = validation_df["relevance"]
现在这可能是你被困的事情。我们为每个数据帧创建这 3 个向量/矩阵。
X_train
是独立变量的集合,因此是模型的输入数据。
y_train
是您的因变量,即您要预测/排名的变量。最后,
qids_train
你是查询id吗?它们看起来像这样:
array([10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10])
这也是
X_train
:
var1 var2 var3
0 0.624776 0.191463 0.598358
1 0.258280 0.658307 0.148386
2 0.893683 0.059482 0.340426
3 0.879514 0.526022 0.712648
4 0.188580 0.279471 0.062942
.. ... ... ...
795 0.014315 0.302233 0.255395
796 0.247962 0.871073 0.838955
797 0.605306 0.396659 0.940086
798 0.904734 0.623580 0.577026
799 0.745451 0.951092 0.861373
[800 rows x 3 columns]
这是
y_train
:
0 0
1 0
2 0
3 1
4 0
..
795 0
796 0
797 1
798 0
799 0
Name: relevance, Length: 800, dtype: int64
请注意,它们都是 Pandas 数据帧,LightGBM 支持它们,但是 numpy 数组也可以使用。
model = lightgbm.LGBMRanker(
objective="lambdarank",
metric="ndcg",
)
我在这里只使用最少量的参数。随意查看 LightGBM 文档并使用更多参数,它是一个非常强大的库。
model.fit(
X=X_train,
y=y_train,
group=qids_train,
eval_set=[(X_validation, y_validation)],
eval_group=[qids_validation],
eval_at=10,
verbose=10,
)
开始训练并打印:
[10] valid_0's ndcg@10: 0.562929
[20] valid_0's ndcg@10: 0.55375
[30] valid_0's ndcg@10: 0.538355
[40] valid_0's ndcg@10: 0.548532
[50] valid_0's ndcg@10: 0.549039
[60] valid_0's ndcg@10: 0.546288
[70] valid_0's ndcg@10: 0.547836
[80] valid_0's ndcg@10: 0.552541
[90] valid_0's ndcg@10: 0.551994
[100] valid_0's ndcg@10: 0.542401
我希望我可以用这个简单的例子充分说明这个过程。如果您还有任何问题,请告诉我。
关于python - Lightgbm 排名示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62555987/
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Sample data for IPv6? 除了 wireshark 在其网站上提供的内容之外,是否有可以下
我正在寻找可以集成到现有应用程序中并使用多拖放功能的示例或任何现成的解决方案。我在互联网上找到的大多数解决方案在将多个项目从 ListBox 等控件拖放到另一个 ListBox 时效果不佳。谁能指出我
我是 GATE Embedded 的新手,我尝试了简单的示例并得到了 NoClassDefFoundError。首先我会解释我尝试了什么 在 D:\project\gate-7.0 中下载并提取 Ga
是否有像 Eclipse 中的 SWT 示例那样的多合一 JFace 控件示例?搜索(在 stackoverflow.com 上使用谷歌搜索和搜索)对我没有帮助。 如果它是一个独立的应用程序或 ecl
我找不到任何可以清楚地解释如何通过 .net API(特别是 c#)使用谷歌计算引擎的内容。有没有人可以指点我什么? 附言我知道 API 引用 ( https://developers.google.
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
我正在尝试为我的应用程序设计配置文件格式并选择了 YAML。但是,这(显然)意味着我需要能够定义、解析和验证正确的 YAML 语法! 在配置文件中,必须有一个名为 widgets 的集合/序列。 .这
你能给我一个使用 pysmb 库连接到一些 samba 服务器的例子吗?我读过有类 smb.SMBConnection.SMBConnection(用户名、密码、my_name、remote_name
linux服务器默认通过22端口用ssh协议登录,这种不安全。今天想做限制,即允许部分来源ip连接服务器。 案例目标:通过iptables规则限制对linux服务器的登录。 处理方法:编
我一直在寻找任何 PostProjectAnalysisTask 工作代码示例,但没有看。 This页面指出 HipChat plugin使用这个钩子(Hook),但在我看来它仍然使用遗留的 Po
我发现了 GWT 的 CustomScrollPanel 以及如何自定义滚动条,但我找不到任何示例或如何设置它。是否有任何示例显示正在使用的自定义滚动条? 最佳答案 这是自定义 native 滚动条的
我正在尝试开发一个 Backbone Marionette 应用程序,我需要知道如何以最佳方式执行 CRUD(创建、读取、更新和销毁)操作。我找不到任何解释这一点的资源(仅适用于 Backbone)。
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题?通过 editing this post 添加详细信息并澄清问题. 去年关闭。 Improve this
我需要一个提交多个单独请求的 django 表单,如果没有大量定制,我找不到如何做到这一点的示例。即,假设有一个汽车维修店使用的表格。该表格将列出商店能够进行的所有可能的维修,并且用户将选择他们想要进
我有一个 Multi-Tenancy 应用程序。然而,这个相同的应用程序有 liquibase。我需要在我的所有数据源中运行 liquibase,但是我不能使用这个 Bean。 我的应用程序.yml
我了解有关单元测试的一般思想,并已在系统中发生复杂交互的场景中使用它,但我仍然对所有这些原则结合在一起有疑问。 我们被警告不要测试框架或数据库。好的 UI 设计不适合非人工测试。 MVC 框架不包括一
我正在使用 docjure并且它的 select-columns 函数需要一个列映射。我想获取所有列而无需手动指定。 如何将以下内容生成为惰性无限向量序列 [:A :B :C :D :E ... :A
$condition使用说明和 $param在 findByAttributes在 Yii 在大多数情况下,这就是我使用 findByAttributes 的方式 Person::model()->f
我在 Ubuntu 11.10 上安装了 qtcreator sudo apt-get install qtcreator 安装的版本有:QT Creator 2.2.1、QT 4.7.3 当我启动
我是一名优秀的程序员,十分优秀!