machine-learning - Vowpal Wabbit 可能存在哈希冲突

转载作者：行者123 更新时间：2023-11-30 09:04:55

25

4

我在 VW 中生成了一个模型，并且还在相同的数据上生成了两个可读模型(第一个带有“--read_model”arg，第二个带有“--invert_hash”)。当我在测试数据集上运行模型并使用 --audit 选项时，某些功能的报告权重与上述可读模型中报告的权重相比略有不同。例如，这是在 train.data 上训练的可读模型的一部分:

213006:-0.19007
213008:-0.692261
213009:-0.203193

如您所见，索引为 213008 的特征的权重为 -0.692261但是，当我在 test.data 上使用 -t 选项和 --audit 选项运行模型时，审计输出中的一些权重会有所不同:

-3.962444   q^featureXY:213008:1:-0.756017

什么可能导致这种情况？我有超过 300k 个特征，这是否可能是由某些哈希冲突引起的？但如果存在哈希冲突，Vowpal Wabbit 不应该报告这一点吗？正如您所看到的，测试时使用了选项 -t，因此模型应该是“稳定的”。

最佳答案

`vw`允许哈希冲突(故意)

这在文献中被称为“哈希技巧”。

从大量特征中学习时，特征哈希冲突不会被视为错误，因为少量冲突很少会对学习产生不利影响。在许多情况下，较小的冲突率甚至可能有助于降低泛化误差。

忽略碰撞有什么好处？

由于不需要以特殊方式处理冲突，因此哈希技巧的一个明显优点是学习速度更快。

碰撞不会让学习变得更糟吗？

哈希冲突只是创建冲突特征子集的(随机)混合。只要冲突子集是完整特征集的一小部分(当哈希空间足够大时可以预期)，这些冲突充当正则化的随机形式，并且通常(尽管并非总是)有助于避免过度-配件。

如果我的哈希空间太小(冲突太多)怎么办？

如果你有超过 300k 的特征，那确实是一个极端的情况。 300k 大于默认哈希空间大小 (2^18 = 262144)所以碰撞的部分已经不小了。在这种情况下，您应该通过增加 -b <bits> 来增加哈希空间。哪里<bits>高于默认18 .

我怎么知道我是否有太多冲突？

渐进验证错误，由 vw 打印随着它的学习，应该给你一个很好的提示，告诉你什么是最佳的 -b值适用于您的数据集。

您也可以尝试使用vw-hypersearch搜索最佳值。像这样:

    # find the best average loss when using between 19 and 26 bits hash-space
    vw-hypersearch 19 26 vw -b % [other-vw-options...] -d data-set

关于machine-learning - Vowpal Wabbit 可能存在哈希冲突，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54558853/

25

4

0

文章推荐： java - 使用 IBM MQ 资源适配器优于 RemoteJMSProvider 的优势？

文章推荐： java - 在 Eclipse IDE 中自定义代码格式样式

文章推荐： java - Libgdx 子弹显示碰撞对象

文章推荐： java - ColdFusion 10 中的 BouncyCaSTLe 库

c++ - 使用 TextPad/G++ 链接和编译 C++ 文件时出错，可能(可能)只是语法？
这很可能是我的语法错误，因为我对在 C++ 中使用多个文件和结构(特别是将结构传递给函数)还很陌生。这是三个文件: 主要.cpp: #include #include #include #inc
typescript - 类验证器的高级条件(可能)？
我有 TypeScript NestJS 项目。我需要验证传入的 DTO 到我的 API。它可以被描述为“创建项目”，其中我们有建筑类型(房屋、公寓、花园)，并根据该类型我们需要定义: 房屋:楼层包
c# - 排除通用约束中的类型(可能？)
是否可以从可用于泛型参数的可能类型集中排除特定类型？如果是如何。例如 Foo() : where T != bool 将意味着除了类型 bool 之外的任何类型。编辑为什么？以下代码是我尝试强
javascript - 纹理未生成有效(可能)
我的 WebGL 体积光线转换应用程序即将完成。但是我发现了一个问题。我必须通过 2D 纹理模拟 3D 纹理。这不是问题。我正在用小切片创建一个巨大的纹理。巨大纹理的尺寸约为 4096x4096 像素
javascript - 返回顶部按钮问题(可能)？
我正在处理的网页上显示了一个返回顶部按钮。当您向下滚动时，有时单击它时，它会跳到顶部，然后跳回您在页面上的位置，然后像预期的那样平滑滚动到顶部。请记住，它并不总是这样做。这只是一个滞后或故障问题还是我
C#(可能)使用泛型
我对此还很陌生，所以请耐心等待。我有一个类，它具有三个属性:几个整数和一个用户定义对象的集合。 public class Response { public int num1 { get;
java - (可能)非常简单的Java多线程问题
我正在制作一款平台游戏，让玩家每 30 毫秒跳跃一次，并向上添加少量的力。我想我应该使用多线程，因为我之前已经做过一些，而且看起来很简单。无论如何，我尝试了这个: public void jump()
c# - 排除通用约束中的类型(可能？)
是否可以从可能的类型集中排除特定类型，这些类型可以在泛型参数中使用？如果是这样的话。例如 Foo() : where T != bool 表示除 bool 类型之外的任何类型。编辑为什么？以下
mysql - 查询中内部和外部连接在一起，可能
我正在尝试在单个查询中实现内部和外部联接，我不确定我的做法是正确还是错误，因为我不太擅长查询。就这样吧。我有以下表格。 hrs_residentials hrs_residential_utili
javascript - 冲突的脚本......可能
关于 my website ，有一段代码可以向页面添加几个元素。这段代码不是我可以编辑的东西，而且我对它放置这些元素的位置不满意，因为它弄乱了我的一些布局。所以我想出了一个小的 jQuery 来将它们
Postgresql:以下选择是否合理/可能？
一位客户希望我创建一个数据集，如下所示。我不知道这是否可能或合乎逻辑。我有表parent: id name ------- ------- 1 parent1 2
javascript - 检测其他打开的网站甚至应用程序的数量(可能)？
这可能吗？google 好像没有这方面的资料.. 这样，如果用户在另一个网站上播放视频或歌曲，我的音量就会自动减小最佳答案不，这是不可能的。如果可能的话，它必须是特定于浏览器的，但我不认为这种情
javascript - 响应式设计而不是此示例的自适应设计 - 可能
所以我正在尝试制作响应式页面。问题是为什么它归结为移动数据需要位于列表中。我会用一些示例代码来解释所以这可能是桌面上的输出 option1
html - 将鼠标悬停在(可能？)
当您将鼠标悬停在a 元素上时，是否可以删除url？这就是我的意思: 最佳答案一种选择是使用一些 JavaScript。删除 href=来自的属性标签，取而代之的是 onclick=...
algorithm - (可能)一个线段树应用
我已经考虑了几个小时，但我无法取得太大进展。它是这样的: You have an array of size n and q queries. Each query is of the form (l
android - 脚本运行速度太快了!可能
我一直在尝试编写一个脚本来强化 android。我没有成功! 我正在通过模拟器运行一个 AVD，并且已经用我加载的 android shell 和 bash shell 试过了。正如您将在下面看到的那
excel - InStr 值数组(可能？)
Private Sub Workbook_Open() Dim WBname As String WBname = ThisWorkbook.name If Not InStr(WBname, "te
scala - Spark 卡在删除广播变量(可能)
Spark 2.0.0-预览版我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它，因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[Strin
regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML
我正在尝试从此link中提取摘要。但是，我无法仅提取摘要的内容。到目前为止，这是我完成的工作： url <- "http://www.scielo.br/scielo.php?script=sci_a
asp.net - 将ModalPopup移动到IFrame之外。可能？
我的主页中有一个iframe。 iframe页面中有一个modalpopup。因此，当显示modalpopup时，modalpopup的父级是iframe主体和主页父级主体。因此，覆盖层仅覆盖ifra

首页

博学

6Ren·AI

商城

machine-learning - Vowpal Wabbit 可能存在哈希冲突

`vw`允许哈希冲突(故意)

忽略碰撞有什么好处？

碰撞不会让学习变得更糟吗？

如果我的哈希空间太小(冲突太多)怎么办？

我怎么知道我是否有太多冲突？

首页

博学

6Ren·AI

商城

machine-learning - Vowpal Wabbit 可能存在哈希冲突

vw允许哈希冲突(故意)

忽略碰撞有什么好处？

碰撞不会让学习变得更糟吗？

如果我的哈希空间太小(冲突太多)怎么办？

我怎么知道我是否有太多冲突？

`vw`允许哈希冲突(故意)