gpt4 book ai didi

python - 为 scikit learn 构建功能集

转载 作者:太空宇宙 更新时间:2023-11-04 03:48:52 25 4
gpt4 key购买 nike

我正在使用 RandomForestClassifier 进行概率预测任务。我有一个包含大约 50 个特征和两个可能标签的特征集 - first team winssecond team wins

特征集包含两支球队的特征,以及我构建它的方式,因为我知道哪支球队赢了,所以有 50% 的特征集标记为第一队获胜,50% 的标记为第二队获胜 - 具有各自的特征放置在特征集中的正确位置 - 对于训练数据中的每场比赛,最初将获胜球队作为第一支球队,我交换每个球队的特征并将标签更改为 second team wins,使用计数器模 2。

我看到的问题是,如果我将计数器更改为从 1 或 0 开始,它会使最终预测发生巨大变化,这意味着数据集是不对称的。为了解决这个问题,我尝试以标签为 first team wins 的正常顺序添加每场比赛两次,并以标签为 second team wins 进行反转。问题是——这如何影响模型的行为?进行此更改后,我看到了一些负面影响,但不足以达到统计显着性。然而,它确实增加了构建特征集和拟合模型的运行时间。

将标签和团队顺序随机化会是一种更可靠的方法吗?我有哪些选择?

最佳答案

由于您要相互比较相应的团队特征,因此另一种方法是减少:

TeamA: featureA1, featureA2, featureA3 ... featureAN
TeamB: featureB1, featureB2, featureB3 ... featureBN
Output: which team wins

到:

Input: featureA1-featureB1, featureA2-featureB2, featureA3-featureB3, ..., featureAN - featureBN
Output: positive if team A wins, negative if team B wins

然后训练你的分类器。这种方法的好处是您现在可以比较一半的特征,而不必再担心团队的顺序。

关于python - 为 scikit learn 构建功能集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22346065/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com