gpt4 book ai didi

vowpalwabbit - Vowpal Wabbit Contextual Bandit 数据格式

转载 作者:行者123 更新时间:2023-12-04 04:25:33 25 4
gpt4 key购买 nike

我有 2 个关于格式化数据以用于上下文强盗模型训练的问题。

如果我有如下数据...

1:1:0.2 | d1:us d2:female d3:12

问题 1)我从 VW Wiki 上读到,每个功能都可选地后跟一个浮点数。如果我将分类特征(例如我们,女性)作为值,重新格式化它们的最佳方法是什么?我想我不会给它们添加浮点后缀,让它们的默认值为 1。我希望这能实现单热编码。

问题 2)我通过记录如下数据错误地训练了模型
1:1:0.2 | us female 12 

我现在意识到“我们”、“女性”和“12”被视为默认值为 1 的特征。我说得对吗?

最佳答案

是的,你是对的。

输入特征格式为:空格分隔,每个特征为<name>:<value>哪里:<value> ,如果存在,必须是数字。

要表示分类值,您可以使用除 : 以外的其他值。作为 <name> 之间的分隔符和 <value> .在这种情况下,整个字符串将被视为特征名称。这通常称为“one-hot encoding”(每个可能的特征+值组合都被视为一个单独的特征)。

另请注意功能名称 12将被 vw 散列直接到哈希表中的插槽 12(模 2^ 位),假设这是用户想要的,因为数字特征很常见(并且是 libSVM 约定)。这可以通过选项 --hash all 禁用。在命令行上。默认为 --hash strings含义:(murmur3) 散列特征名称,它们看起来像一个字符串(不是整数),但别管(不要散列)看起来像数字的特征名称。

另见:How to represent categorical features in vowpal-wabbit其中包括用于表示 vw 中的输入特征的备忘单.

关于vowpalwabbit - Vowpal Wabbit Contextual Bandit 数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41686315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com