hash - 特征位在 Vowpal Wabbit 中如何工作-6ren

hash - 特征位在 Vowpal Wabbit 中如何工作

转载作者：行者123 更新时间：2023-12-02 21:12:54

32

4

我对 Vowpal wabbit 比较陌生，想了解 -b 参数(特征表中的特征位)。

我的训练数据是这样的。总共约100万字。

1 | a = "word" b ="word131232" c="word1233" d = "word123124" e = "word23145"

但是，每行只有 5 个特征。我应该使用多少位？我尝试运行它，似乎随着示例数量的增加，功能集的数量似乎也在增加。我似乎不明白为什么会这样。

最佳答案

如果您使用-b 18(这是默认值)，这些特征将被散列到一个包含 2^18 个项目的表中，因此如果数据集中的唯一特征数量接近2^18(甚至更高)，你应该增加参数-b，这样就不会出现那么多哈希冲突。没有简单的方法来检测冲突的数量，但常见的做法是调整参数-b以获得最佳的渐进验证损失(或者保留损失，如果您使用更多通行证)。当然，这也取决于您机器上的可用内存。

1 | a = "word" b ="word131232" c="word1233" d = "word123124" e = "word23145"

请注意，这个示例是错误的(不是您想要的)，因为 = 周围有空格。等号没有特殊含义(与用于分隔特征值的冒号不同)。功能的名称中不能包含空格。无需将功能名称括在引号中。所以这个例子应该看起来像

1 | word word131232 word1233 word123124 word23145

如果前缀 a、b、c、d、e 有特殊含义(即 a=word42 应该是与 b=word42 不同的功能)，您可以使用:

1 | a=word b=word131232 c=word1233 d=word123124 e=word23145

如果你的所有单词已经映射到整数(0-2^b 范围内)，你可以直接使用它们作为特征名称，并且不会进行哈希处理(除非你指定 --hash=all):

1 | 0 131232 1233 123124 23145

请参阅wiki page about input format .

the number of features set seem to increase

在进度报告中(默认每个 2^x 个示例)，在最后一列中您可以看到当前特征，这是当前示例的特征数量(包括常量特征)和二次/三次/...特征(如果您使用它们)并且它不应该增加(除非您有如此奇怪的数据)。

在最终报告中，vw 打印总特征数，即每个示例的平均特征数乘以示例数乘以遍数(因此不是数据集中唯一特征的数量。

关于hash - 特征位在 Vowpal Wabbit 中如何工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32469475/

32

4

0

文章推荐： objective-c - 创建一个空对象有什么用吗？ ( Objective-C )

文章推荐： aws-cli - AWS Cloudsearch CLI 带有 --query-options 抛出错误

文章推荐： yaml - 如何在 Swagger 中指定列

文章推荐： c# - 集合无重复且有序

vowpalwabbit - Vowpal Wabbit - 如何从测试样本的上下文老虎机模型中获得预测概率
给定经过训练的上下文老虎机模型，如何检索测试样本的预测向量？例如，假设我有一个名为“train.dat”的火车集，其中包含格式如下的行 1:-1:0.3 | a b c # 2:2:0.3 |
vowpalwabbit - Vowpal Wabbit 如何表示分类特征
我有以下所有分类变量的数据: class education income social_standing 1 basic low g
logistic-regression - Vowpal Wabbit逻辑回归的正确性？
我已经开始使用 Vowpal Wabbit 对于逻辑回归，但是我无法重现它给出的结果。也许它确实有一些未记录的“魔法”，但是有没有人能够复制/验证/检查逻辑回归的计算？例如，使用下面的简单数据，我们
vowpalwabbit - Vowpal Wabbit 可读模型权重解释
最近我在使用 Vowpal Wabbit 进行分类，我得到了一个关于 readable_model 的问题。这是我的命令:vw --quiet --save_resume --compressed
vowpalwabbit - vowpal wabbit 中的零线性回归模型
我想使用空模型对 vowpal wabbit 进行线性回归(仅截取 - 用于比较原因)。我应该为此使用哪个优化器？还是简单平均的最佳常量损失报告？最佳答案 A1:对于线性回归，如果您关心平均值，您应
vowpalwabbit - vowpal wabbit 如何与梯度下降算法一起使用？
我一直在努力理解 vowpal wabbit 算法。有没有人可以帮助我了解 VW 以及如何实现它最佳答案 Vowpal Wabbit专注于在线学习(虽然它也可以批处理 L-BFGS)，它的主要算法是
vowpalwabbit - Vowpal Wabbit 公式中的自适应更新
我正在查看以下 2 个关于 VW 在使用 --adaptive 标志时所做的更新的演示。似乎它们是不同的。 http://www.slideshare.net/jakehofman/technica
java - Vowpal Wabbit 执行而不写入磁盘
我编写了一个java代码来按以下方式执行Vowpal Wabbit: System.out.println("Executing command " + command); fina
python - 计算 Vowpal 上的分数
我正在尝试对 Vowpal 中的样本数据运行逻辑回归。我创建了一个示例数据集，如下所示: 1 1.0 | a:3.28 b:1.5 c:2.0 |example -1 1.0 | a:1.25
r - Vowpal Wabbit 输入需要多少预处理？
我知道大众汽车可以处理非常原始的数据(例如原始文本)，但例如，在将数据输入大众汽车之前是否应该考虑缩放数字特征？考虑以下行: 1 |n 年龄:80.0 高度:180.0 |c 伦敦男 |d the:1
feature-selection - Vowpal Wabbit 交互冗余
我很好奇大众似乎通过 -q 参数创建交互项的方式。为了这个插图的目的，我使用了这个玩具数据，它被称为cats.vm: 1 |a black |b small green |c numvar1:1.
vowpalwabbit - 解释 Vowpal Wabbit 的基本输出
我有几个关于大众汽车简单运行的输出的问题。我已经阅读了互联网和维基网站，但仍然不确定一些基本的事情。我对波士顿住房数据进行了以下操作: vw -d housing.vm --progress 1 其
vowpalwabbit - 使用 Vowpal wabbit 的上下文强盗
在这种情况下，输入之一是选择 ARM / Action 的概率，但我们如何找到该概率？找到这个概率本身不是一项艰巨的任务吗？最佳答案提供概率意味着您正在假设您正在提供历史上采取的行动，例如从日志
vowpalwabbit - Vowpal Wabbit reverse_hash选项产生空输出，但是为什么呢？
我正在尝试使用隐藏的散列来保存vowpal wabbit模型。我有一个有效的模型，它包含以下内容: vw --oaa 2 -b 24 -d mydata.vw --readable_model mym
vowpalwabbit - 需要一些关于 Vowpal Wabbit 的关于交叉验证的指示
我的目标是在参数空间中对各种 VW 模型进行网格搜索(尝试不同的损失函数和正则化等)。由于模型可以使用多次传递，我想使用交叉验证。我想知道我是否应该实现我自己的交叉验证代码(也许作为一个 bash 脚
vowpalwabbit - 如何在真实在线模式下演示 Vowpal Wabbit 的上下文强盗？
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 3年前关闭。 Improve this questi
vowpalwabbit - 为 vowpal wabbit 中的示例设置权重的实用指南
我有一个数据集(有 6 个目标类)的多类分类问题。训练数据的类标签分布偏斜:下面是每个类标签(1 到 6)的分布 (array([174171, 12, 29, 8285, 9
vowpalwabbit - 用于多标签分类的 Vowpal Wabbit 预测
抱歉，我确实觉得我忽略了一些非常明显的事情。但是怎么会发生以下情况: $ cat myTrainFile.txt 1:1 |f 1:12 2:13 2:1 |f 3:23 4:234 3:1 |f
hash - 特征位在 Vowpal Wabbit 中如何工作
我对 Vowpal wabbit 比较陌生，想了解 -b 参数(特征表中的特征位)。我的训练数据是这样的。总共约100万字。 1 | a = "word" b ="word131232" c="wo
vowpalwabbit - 用于多标签分类的 Vowpal Wabbit 预测
对不起，我确实觉得我忽略了一些非常明显的事情。但是怎么会发生下面的事情: $ cat myTrainFile.txt 1:1 |f 1:12 2:13 2:1 |f 3:23 4:234 3:1 |

首页

博学

6Ren·AI

商城

hash - 特征位在 Vowpal Wabbit 中如何工作