- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 VW 中生成了一个模型,并且还在相同的数据上生成了两个可读模型(第一个带有“--read_model”arg,第二个带有“--invert_hash”)。当我在测试数据集上运行模型并使用 --audit 选项时,某些功能的报告权重与上述可读模型中报告的权重相比略有不同。例如,这是在 train.data 上训练的可读模型的一部分:
213006:-0.19007
213008:-0.692261
213009:-0.203193
如您所见,索引为 213008 的特征的权重为 -0.692261但是,当我在 test.data 上使用 -t 选项和 --audit 选项运行模型时,审计输出中的一些权重会有所不同:
-3.962444 q^featureXY:213008:1:-0.756017
什么可能导致这种情况?我有超过 300k 个特征,这是否可能是由某些哈希冲突引起的?但如果存在哈希冲突,Vowpal Wabbit 不应该报告这一点吗?正如您所看到的,测试时使用了选项 -t,因此模型应该是“稳定的”。
最佳答案
vw
允许哈希冲突(故意)这在文献中被称为“哈希技巧”。
从大量特征中学习时,特征哈希冲突不会被视为错误,因为少量冲突很少会对学习产生不利影响。在许多情况下,较小的冲突率甚至可能有助于降低泛化误差。
由于不需要以特殊方式处理冲突,因此哈希技巧的一个明显优点是学习速度更快。
哈希冲突只是创建冲突特征子集的(随机)混合。只要冲突子集是完整特征集的一小部分(当哈希空间足够大时可以预期),这些冲突充当正则化的随机形式,并且通常(尽管并非总是)有助于避免过度-配件。
如果你有超过 300k 的特征,那确实是一个极端的情况。 300k 大于默认哈希空间大小 (2^18 = 262144)
所以碰撞的部分已经不小了。在这种情况下,您应该通过增加 -b <bits>
来增加哈希空间。哪里<bits>
高于默认18
.
渐进验证错误,由 vw
打印随着它的学习,应该给你一个很好的提示,告诉你什么是最佳的 -b
值适用于您的数据集。
您也可以尝试使用vw-hypersearch
搜索最佳值。像这样:
# find the best average loss when using between 19 and 26 bits hash-space
vw-hypersearch 19 26 vw -b % [other-vw-options...] -d data-set
关于machine-learning - Vowpal Wabbit 可能存在哈希冲突,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54558853/
这很可能是我的语法错误,因为我对在 C++ 中使用多个文件和结构(特别是将结构传递给函数)还很陌生。这是三个文件: 主要.cpp: #include #include #include #inc
我有 TypeScript NestJS 项目。 我需要验证传入的 DTO 到我的 API。它可以被描述为“创建项目”,其中我们有建筑类型(房屋、公寓、花园),并根据该类型我们需要定义: 房屋:楼层包
是否可以从可用于泛型参数的可能类型集中排除特定类型?如果是如何。 例如 Foo() : where T != bool 将意味着除了类型 bool 之外的任何类型。 编辑 为什么? 以下代码是我尝试强
我的 WebGL 体积光线转换应用程序即将完成。但是我发现了一个问题。我必须通过 2D 纹理模拟 3D 纹理。这不是问题。我正在用小切片创建一个巨大的纹理。巨大纹理的尺寸约为 4096x4096 像素
我正在处理的网页上显示了一个返回顶部按钮。当您向下滚动时,有时单击它时,它会跳到顶部,然后跳回您在页面上的位置,然后像预期的那样平滑滚动到顶部。请记住,它并不总是这样做。这只是一个滞后或故障问题还是我
我对此还很陌生,所以请耐心等待。 我有一个类,它具有三个属性:几个整数和一个用户定义对象的集合。 public class Response { public int num1 { get;
我正在制作一款平台游戏,让玩家每 30 毫秒跳跃一次,并向上添加少量的力。我想我应该使用多线程,因为我之前已经做过一些,而且看起来很简单。无论如何,我尝试了这个: public void jump()
是否可以从可能的类型集中排除特定类型,这些类型可以在泛型参数中使用?如果是这样的话。 例如 Foo() : where T != bool 表示除 bool 类型之外的任何类型。 编辑 为什么? 以下
我正在尝试在单个查询中实现内部和外部联接,我不确定我的做法是正确还是错误,因为我不太擅长查询。 就这样吧。 我有以下表格。 hrs_residentials hrs_residential_utili
关于 my website ,有一段代码可以向页面添加几个元素。这段代码不是我可以编辑的东西,而且我对它放置这些元素的位置不满意,因为它弄乱了我的一些布局。所以我想出了一个小的 jQuery 来将它们
一位客户希望我创建一个数据集,如下所示。我不知道这是否可能或合乎逻辑。 我有表parent: id name ------- ------- 1 parent1 2
这可能吗?google 好像没有这方面的资料.. 这样,如果用户在另一个网站上播放视频或歌曲,我的音量就会自动减小 最佳答案 不,这是不可能的。 如果可能的话,它必须是特定于浏览器的,但我不认为这种情
所以我正在尝试制作响应式页面。问题是为什么它归结为移动数据需要位于列表中。 我会用一些示例代码来解释 所以这可能是桌面上的输出 option1
当您将鼠标悬停在a 元素 上时,是否可以删除url? 这就是我的意思: 最佳答案 一种选择是使用一些 JavaScript。 删除 href=来自 的属性标签,取而代之的是 onclick=...
我已经考虑了几个小时,但我无法取得太大进展。它是这样的: You have an array of size n and q queries. Each query is of the form (l
我一直在尝试编写一个脚本来强化 android。我没有成功! 我正在通过模拟器运行一个 AVD,并且已经用我加载的 android shell 和 bash shell 试过了。正如您将在下面看到的那
Private Sub Workbook_Open() Dim WBname As String WBname = ThisWorkbook.name If Not InStr(WBname, "te
Spark 2.0.0-预览版 我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它,因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[Strin
我正在尝试从此link中提取摘要。但是,我无法仅提取摘要的内容。到目前为止,这是我完成的工作: url <- "http://www.scielo.br/scielo.php?script=sci_a
我的主页中有一个iframe。 iframe页面中有一个modalpopup。因此,当显示modalpopup时,modalpopup的父级是iframe主体和主页父级主体。因此,覆盖层仅覆盖ifra
我是一名优秀的程序员,十分优秀!