machine-learning - Vowpal 兔子 : Low-rank matrix factorization?-6ren

machine-learning - Vowpal 兔子 : Low-rank matrix factorization?

转载作者：行者123 更新时间：2023-11-30 08:24:42

27

4

我有一个非常基本的问题。我想做低阶矩阵分解，我正在查看 Vowpal Wabbit documentation关于这个话题。我的问题是:

这两种方法之间有区别吗？(实现或其他)

$ vw --lrq ab5

或

$ vw -q ab --rank 5

这里，a和b是特征命名空间，5是潜在因子维度。

<小时/>

可能的后续行动:

如果这些是等价的，--rank 也适用于高阶交互吗？

最佳答案

简短回答:

--rank 和 --lrq 是 Vowpal wabbit 中矩阵分解/分解的两个独立且非常不同的实现。

“矩阵分解”，有时也称为“矩阵分解”，是机器学习中的通用术语，有很多方法可以使用更简单的因子(有时会丢失信息)来近似矩阵。

尽管它们具有一些相似之处，因为它们都试图捕获两个特征子集之间最强的潜在交互，但它们在实现和生成的模型质量方面并不等效。他们的表现很大程度上取决于手头的问题。

更详细:

--rank 是 Jake Hofman 在 vw 中首次实现 MF。它的灵感来自SVD (Singular Value Decomposition)
--lrq 几年后由 Paul Mineiro 实现。它的灵感来自libfm

在难以概括的数据集上(例如 movielens 1M，其中用户对每部电影最多有一个评分)，--lrq 似乎表现更好。它似乎使用了更好的默认值，收敛速度更快，效率更高，并且生成的磁盘模型要小得多。 --rank 在其他数据集上可能会表现更好，因为每个用户/项目有更多示例可供概括。

通过运行示例，您可以看出这两种实现会产生不同的结果。例如在 test 目录下选择一个数据集并在其上运行两个算法:

vw --lrq aa3       test/train-sets/0080.dat

对比:

vw --rank 3 -q aa  test/train-sets/0080.dat

随意添加:--holdout_off -c --passes 1000以使它们运行更长时间，以便您可以比较两者之间的运行时间。

您会注意到，两者在每个示例中使用不同数量的特征(--lrq 更加简约，只会查看您明确告诉它的子集)，收敛和使用 --lrq 最终平均损失更好。如果您使用 -f modelname 存储模型 - 您会注意到使用 --lrq 存储模型会小得多，尤其是在大数据集上。

OTOH，如果您在源树中尝试像 test/train-sets/ml100k_small_train 这样的数据集，命名空间 u 之间的排名为 10(用户) 和 i (item)，使用 --rank 会比使用 --lrq 得到更好的损失。这表明哪一个更好取决于手头的数据集。

更高的交互(例如`--cubic`)

对于你的第二个问题:--rank 不允许更高的交互。如果您尝试添加 --cubic 您将收到错误:

vw (gd_mf.cc:139): cannot use triples in matrix factorization

但它将允许多个/额外的-q(二次)交互。

--lrq 不太复杂，因此您可以向其添加更高阶的交互选项。

进一步阅读

--排名

--lrq

--lrq demo in the source tree
libfm (by Steffen Rendle) after which --lrq was designed还有许多进一步的引用。

关于machine-learning - Vowpal 兔子 : Low-rank matrix factorization?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39040721/

27

4

0

文章推荐： javascript - 更改事件未从页面触发

python - `mid = low + (high -low)//2` 比 `(low + high)//2` 有什么好处？
我正在研究树问题 Convert Sorted Array to Binary Search Tree - LeetCode Given an array where elements are sor
c - "low"C怎么去当成 "low-level"语言呢？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
html - 任何人都可以为我改变这个吗？评级系统 css 从 "high to low"到 "low to high"
目前我想使用来自 http://codepen.io/JaxoDI/pen/DtsdH 的评级系统.但目前它在您从右向左悬停时有效。请随意在给定的链接中尝试一下。但我想要一个从左到右悬停的评级系统。
algorithm - 何时使用 low < high 或 low + 1 < high for loop invariant
我读过多篇文章，包括 Jon Bentley 的二分查找章节。这是我对 CORRECT 二进制搜索逻辑的理解，它在我所做的简单测试中有效: binarysearch (arr, low, high,
postgresql - jdbc-HikariCP : Seeing low insert thoughput while DB/App cpu % is still low
我设置了 doobie + hikaricp，其设置与默认设置类似。通过调试日志记录，我可以看到有多少连接处于事件/空闲状态，这也反射(reflect)了 pg_stat_activity 通过此查询
java - 为什么在 Java 中 (high + low)/2 是错误的，但 (high + low) >>> 1 不是？
我了解 >>> 修复了溢出:当添加两个大的正长时，您最终可能会得到一个负数。有人能解释一下这种按位移位如何神奇地解决溢出问题吗？它与 >> 有何不同？我的怀疑:我认为这与 Java 使用二进制补码这
low-level - 返回值存储在内存中的哪个位置？
返回值存储在内存中的哪个位置？考虑以下代码: int add(int a, int b) { int result = a+b; return result; } void main
Bluetooth Low energy最佳能耗策略
我打算开发一个内置 TI CC2540 的小型设备。它将与 iPhone4s 通信。该设备旨在接收来自 iPhone 的命令并对其执行特定操作。大多数时间设备处于空闲状态(99% 的时间)。但在任何时
low-level - 以十进制打印数字
嗯，这是一个低级问题假设我存储一个数字(当然是二进制格式的计算机存储数字) 如何以十进制格式打印它。在高级程序中很明显，只需打印它，库就会为您完成。但是在我没有这个库的非常低级的情况下怎么样。我
low-latency - 当今最先进的高频交易系统有多快？
您一直听说高频交易 (HFT) 以及算法有多快。但我想知道 - 现在什么是快？更新我考虑的不是交易所和运行交易应用程序的服务器之间的物理距离造成的延迟，而是程序本身引入的延迟。更具体地说:从事件
linux - 'low memory'在linux中是什么意思
嗨，我是韩国人，对“ Bootstrap 首先将自身复制到固定的高端内存地址以为操作系统释放低端内存”感到困惑。我通过谷歌搜索发现的关于低内存的知识是，这是 DOS 系统中的第一个 640K 内存。
terminology - "low ceremony"是什么意思？
在 Trac 主要功能页面中 https://trac.edgewall.org/wiki/TracFeatures Trac 据说强调“易用性和低调”。有人可以解释一下“仪式”在软件使用方面的含义吗
iphone - 如何处理iPhone游戏过程中弹出的 'Low Battery'
我想知道在游戏过程中如何处理低电量警报。我使用 Cocos2D 来制作我的游戏。当出现短信或电话等中断时，我会让游戏暂停。但是低电量警报又如何呢？它们与其他中断相同吗？看来并非如此。有什么方法可以检
low-level - 不使用+运算符将两个数字相加的最佳方法是什么？
我和一个 friend 正在与脑筋急转弯来回走，我不知道如何解决这个问题。我的假设是某些按位运算符是可能的，但不确定。最佳答案在C中，按位运算符: #include int add(int x,
low-level - CPU 仿真和锁定到特定时钟速度
如果你看过我的另一篇 question ，你会知道我已经花了这个周末组装一个 6502 CPU 仿真器作为一个编程练习。 CPU 模拟器大部分是完整的，从我有限的测试来看似乎相当准确，但是它运行得非常
graphics - "low level"3D图形编程
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 3 年前。 Improve th
java - "Low level"使用Java的项目
我想知道使用 Java 做一些低级或操作系统的东西(一个项目)是否有意义。我之所以问这个问题，是因为我想扩展我在 Java 方面的知识，并且我喜欢做文件压缩器、批量文件重命名器等工作。有没有我可以查看
low-level - CheatEngine 的速度破解是如何工作的？
Cheat Engine带有一个称为速度破解的功能，它基本上可以减慢或提高游戏速度。其实不光是游戏，如果有一款带时钟的软件也可以加快速度。这是如何运作的？我可能会想象有一些内部时钟在运行这些东西，但不
Java，(low + high)>>1会溢出吗？
我知道 >> 表示有符号，>>> 表示无符号类似的问题不能回答我的问题: Java, will (low + high) >>> 1 overflow? Safe integer middle va
Java : Low-pass filter
我是一名法国学生，实际上我在移动应用程序中实习。我使用以下代码创建了一个应用程序来获取有关加速度计传感器的信息: @Override protected void onCreate(Bundle s

首页

博学

6Ren·AI

商城