java - LinUCB exploration-exploitation 算法不会随时间改善结果-6ren

java - LinUCB exploration-exploitation 算法不会随时间改善结果

转载作者：塔克拉玛干更新时间：2023-11-03 05:04:24

24

4

我正在尝试实现以下论文中给出的算法 1。 http://www.research.rutgers.edu/~lihong/pub/Li10Contextual.pdf

这是一个典型的探索-开发算法。我使用了公式 payoff=mean+contant*standard deviation

首先，我对我拥有的一组数据运行算法，然后我从数据集中输入一条记录作为新输入，看看它是否可以预测正确的输出。但它给出了错误的输出，所以我给出了 0 奖励并重新计算了该臂的均值和标准差并继续算法。但每次它总是返回相同的 ARM 。均值也不会改变。

有人可以向我解释一下，当给出负反馈时，该算法的均值和方差是如何变化的吗？我总是获得相同值的原因是什么？

我用过java编程。代码如下。

public void LINUCB(double[] newFeature, Arm arm) {
    LOGGER.log(Level.INFO, "LINUCB");
    LOGGER.log(Level.INFO, "Arm number " + arm.getArmID());
    if (arm.isNew()) {
        arm.setFeatureMatrix(getIdentityMatrix(ConstantValues.FEATURE_DIMENSION));
        arm.setResponseVector(new double[ConstantValues.FEATURE_DIMENSION]);
    }

    double[][] invertedFeatureMatrix = invert(arm.getFeatureMatrix());
    /**The response vector is [D*M][M].  it is the multiplication of tranpose of design matrix with the user feedback provided to each trial M*/
    //TODO use gradient descent here.
    double[] theta = getSquareMatrixColumnVectorMultiplication(invertedFeatureMatrix, arm.getResponseVector());        
    double meanPayOff = getRowVectorColumnVectorMultiplication(theta, newFeature);
    System.out.print(" meanPayOff " + meanPayOff);
    double standardDeviation = calculateUCB(newFeature, arm.getFeatureMatrix());
    System.out.print(" standardDeviation " + standardDeviation);
    double payOffForArm = meanPayOff + standardDeviation;
    System.out.print(" payOffForArm " + payOffForArm);
    if (payOffForArm > maxPayOff) {
        maxPayOff = payOffForArm;
        //armWithMaxPayOff = arm;
        //indexOfArmWithMaxPayOff = armArrayList.indexOf(arm);
        maxPayOffArmID = arm.getArmID();
    }
    System.out.println(" ");
}

private double calculateUCB(double[] newFeature, double[][] featureMatrix) {
    double[] tmpColumVector = getSquareMatrixColumnVectorMultiplication(featureMatrix, newFeature);
    double tmpUCB = Math.sqrt(getRowVectorColumnVectorMultiplication(tmpColumVector, newFeature));
    double UCB = ConstantValues.ALPHA * tmpUCB;
    return UCB;
}

alpha 设置为 0.3。

最佳答案

对于每一轮，LinUCB 应该根据其特征向量更新每只 ARM 的置信上限。我认为您错误地实现了算法。

您正在传递一个特征和一个 ARM 。您应该检查 ARM 的特征。您的 newFeature 参数可能独立于 ARM ，在这种情况下，与上下文(在本例中为特征向量)和奖励的任何相关性都被排除在外。
Theta 用于计算预期 yield ，假设它在 ARM 的特征向量中与系数 vector theta 成线性关系。当它应该与 ARM 的特征相乘时，您将它与 newFeature vector 相乘。
除非它是静态变量，否则 maxPayOff 不会跟踪所有臂的最大 UCB。它看起来像是条件语句中的局部变量，因此无法捕获所有臂的最大值。
最后，检查您的奖励是否在 0 和 1 之间。这是一个非常常见的错误，可能会导致奇怪的行为。

关于java - LinUCB exploration-exploitation 算法不会随时间改善结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28168965/

24

4

0

文章推荐： algorithm - 给定两次交换操作的两个字谜的最小编辑距离

文章推荐： java - 马尔可夫链文本生成

文章推荐： java - 什么是java中的条件变量？

文章推荐： algorithm - 多重二进制搜索和比较算法的复杂性

android - 改善 recyclerView 项目之间的间距
我有一个 recycleView Activity ，这是我应该在设计中展示的内容我用这段代码来展示它 val arr:ArrayList = arrayListOf("English","
nginx - 改善 Nginx 服务器响应时间
我目前正在运行 Ubuntu 12.04LTS，nginx 发出请求。我通过谷歌页面速度( https://developers.google.com/speed/pagespeed/insight
hadoop - 改善 hadoop 中的负载平衡
我有以下字符串作为键。从下面的代码中，我看到所有的键都指向同一个 reducer ，尽管有很多 reducer 。最后，同一个 reducer 重载。我想，每个键(字符串)，去一个不同的 reduce
css - 改善 flexbox 行的平衡
假设我有一个 flexbox，为了举例，每个元素都包含一个图像。在这种情况下，flexbox 的目的是将它们均匀分布。看起来很简单。让我们试试吧。 #flex { width: 350px;
c++ - 改善 OCR 结果
我正在从事基于视频车牌检测的项目。它是这样的: 当我想在车牌上使用 OCR 时，我的问题就出现了。我在一些图片上对其进行了测试，效果非常好。这是一些例子: 但是当我把检测到的盘子放上去时，结果很糟糕
python - 改善 BeautifulSoup 性能
所以我有下面这组代码解析好吃的信息。它以下列格式从 Delicious 页面打印数据书签 |人数书签 |人数等等…… 我曾经使用以下方法来查找此信息。 def extract (soup):
python - 改善 Pandas 的设置值
我想为组特征(std、mean...)添加一些列，下面的代码有效，但数据集真的很大而且性能很差。有改进代码的好主意吗？谢谢 import pandas as pd df = pd.DataFrame(
mysql - 改善 MySQL 慢查询
我正在使用 new relic 来诊断和修复我们数据库的性能问题。所以我有以下最耗时的查询。 SELECT * FROM `page_view` WHERE `ip_address` = ?s A
ios - 改善 UIWebView 初始化时间
我的公司使用 UIWebView 来展示广告。我遇到的问题是初始化 UIWebView 似乎很昂贵；使用 Time Profiler 进行的分析显示 [UIWebView alloc] initWit
php - 改善 elseif 条件
如何让下面的代码更优雅？目前我必须手动添加每个条件。有没有一种方法可以检查 $total_points 的值是否位于数组 $ranking_list 的连续项之间？ function ym_rank(
c++ - 改善 g++ 输出
g++ 有时会产生相当复杂的输出。特别是在处理模板时。是否有任何工具可以使 g++ 输出更具可读性？ ...至少有一些颜色？在这里问这个问题可能听起来很傻，但我无法通过谷歌搜索。最佳答案从 4.
web-services - 改善 CFHTTP 响应时间
我有一个 API，它登录一个帐户，然后对我想通过 CFHTTP 请求出价的项目执行搜索，如下所示。搜索.cfm: 登录.cfm:
python - 改善 MySQL 读取时间，MySQLdb
我有一个包含超过一百万条记录的表，其结构如下: mysql> SELECT * FROM Measurement; +----------------+---------+--------------
opencv - 改善 Haar 视觉训练数据结果的一般技巧 [openCV]
使用 trainCascade 训练类似 HAAR 的特征。向社区寻求建议以获得更好的结果。一般来说，什么被认为是好的接受率？我从一个较小的培训开始，遵循此链接作为指南:http://coding-
改善 SEO 行为因素的 Flash 游戏
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 9 年前。 Improve this
seo - 当金钱不是一种选择时，改善 SEO 的最佳方法是什么
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
java - 改善 JBoss 5 慢启动
我们从 JBoss 4(和 JDK 5)升级到 JBoss 5(和 JDK 6)。问题是开始时间已经从 1.5 分钟(在 JBoss 4 上)变为超过 4 分钟。 18:53:35,444 INFO
ruby-on-rails-3 - 改善 Rails 加载时间
这是 a previous question on improving rails console loading time 的后续内容。 . 第一个很好的建议是找出 which gems take
javascript - 改善 Javascript 加载时间 - 串联与多个 + 缓存
我想知道以下哪一项会为加载大量 javascript(jQuery + jQuery UI + 各种其他 javascript 文件)的页面带来更好的性能。我已经浏览了大部分 YSlow 和 Goog
javascript - 改善 javascript 矩阵效果中的多个 setInterval() 滞后
我正在使用多个 setInterval() 例如创建、移动、删除落在屏幕上的字符串问题是 MODE 1 间隔导致 interval1 出现滞后我也尝试过切换到MODE 2 STUFF，但仍然出现延

首页

博学

6Ren·AI

商城

java - LinUCB exploration-exploitation 算法不会随时间改善结果