mahout - mahout 的推荐评估器的工作原理-6ren

mahout - mahout 的推荐评估器的工作原理

转载作者：行者123 更新时间：2023-12-04 23:02:16

25

4

谁能告诉我 mahout 的 RecommenderIRStatsEvaluator 是如何工作的？更具体地说，它如何随机拆分训练和测试数据以及结果与哪些数据进行比较？基于我的低估，您需要某种理想/预期的结果，您需要将其与推荐算法的实际结果进行比较以找出 TP 或 FP
从而计算准确率或召回率。但看起来 mahout 提供了一个没有理想/结果的精确/召回分数。

最佳答案

使用您在 evaluate 中提供的一些相关性阈值将数据拆分为训练集和测试集。 RecommenderIRStatsEvaluator的方法类(class)。如果此值为 null有计算它的方法( computeThreshold )。将数据拆分为训练和测试的类是 GenericRelevantItemsDataSplitter .如果您查看代码，您会发现首先每个用户的首选项按照值按降序排序，而不是那些值大于 relevanceThreshold 的用户。被视为相关。另请注意，最多 at被放入这个集合。

@Override
  public FastIDSet getRelevantItemsIDs(long userID,
                                       int at,
                                       double relevanceThreshold,
                                       DataModel dataModel) throws TasteException {
    PreferenceArray prefs = dataModel.getPreferencesFromUser(userID);
    FastIDSet relevantItemIDs = new FastIDSet(at);
    prefs.sortByValueReversed();
    for (int i = 0; i < prefs.length() && relevantItemIDs.size() < at; i++) {
      if (prefs.getValue(i) >= relevanceThreshold) {
        relevantItemIDs.add(prefs.getItemID(i));
      }
    }
    return relevantItemIDs;
  }

您可以在 RecommenderIRStatsEvaluator.evaluate 中看到如何计算精度和召回率方法。简而言之就是这样:
首先，一次只评估一个用户。他的偏好值分为相关(如上所述)和其他。相关的用作测试集，另一个与所有其他用户一起用作训练。然后 top-at为该用户生成推荐。接下来，该方法会查看一些作为测试集放在一边的项目是否出现在推荐中，以及有多少:

int intersectionSize = 0;
      List<RecommendedItem> recommendedItems = recommender.recommend(userID, at, rescorer);
      for (RecommendedItem recommendedItem : recommendedItems) {
        if (relevantItemIDs.contains(recommendedItem.getItemID())) {
          intersectionSize++;
        }
  }

精度比计算如下:

(double) intersectionSize / (double) numRecommendedItems

哪里 numRecommendedItems通常是您的 at如果推荐人至少产生 at建议，否则较小。

类似地，召回计算如下:

(double) intersectionSize / (double) numRelevantItems

哪里 numRelevantItems是此用户的测试集中的项目数。

最终的精度和召回率是所有用户的所有精度和召回率的宏观平均值。

希望这能回答你的问题。

编辑:继续您的问题，在评估推荐系统的 IR 统计数据(精度和召回率)时非常棘手，特别是如果您每个用户的用户偏好数量很少。在此 book您可以找到非常有用的见解。它说

it is typically assumed that the not liked items would have not been liked even if they had been recommended i.e they are uninteresting or useless for the user. However, this may not be true, because the set of not liked items may contains some interesting items that the user did not select. For example, a user may not have liked an item because he was unaware of its existence, but after the recommendation exposed that item, the user can decide to select it. In any case when using IR statistics, the number of the FP is over estimated.

关于mahout - mahout 的推荐评估器的工作原理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20480004/

25

4

0

文章推荐： dart - 动态创建聚合物元素

文章推荐： jqgrid - 是否可以在 jqgrid 中设置分页假？

文章推荐： client-server - 在客户端和服务器之间共享模型

apache-spark - pyspark ml 推荐 - Als 推荐
嗨，我是 Spark 的新手，我正在尝试使用 ML 推荐。我的代码 df = sqlContext.createDataFrame( [(0, 0, 4.0), (0, 1, 2.0), (1,
JavaScript动画库...推荐
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
推荐！十个平台工程工具助力开发人员提升效率和体验
平台工程是为软件开发人员创建高效生态系统的过程，帮助他们自主执行软件开发生命周期的端到端操作。平台工程旨在减少开发人员的整体认知负荷并消除流程中的瓶颈，让开发团队的体验更佳。平台工程工具通过改善开发
Ubuntu解决火狐浏览器无法同步书签的问题【推荐】
最近在ubuntu系统中使用自带的firefox浏览器，发现有写问题，比如登陆后，书签，历史记录等，原本在windows下同步的数据无法同步，添加书签的功能也无法使用。经过查询资料后得知，unb
采用React编写小程序的Remax框架的编译流程解析(推荐)
Remax是蚂蚁开源的一个用React来开发小程序的框架，采用运行时无语法限制的方案。整体研究下来主要分为三大部分：运行时原理、模板渲染原理、编译流程；看了下现有大部分文章主要集中在Reamx的运行
Linux下双网卡Firewalld的配置流程(推荐)
实验室拟态存储的项目需要通过lvs-nat模式通过lvs服务器来区隔内外网的服务，所以安全防护的重心则落在了lvs服务器之上。笔者最终选择通过firewalld放行端口的方式来实现需求，由于fire
推荐！数据可视化的十种优秀JavaScript图表库
如今，随着我们身体各类数据的指数级增长，人们需要接受的信息量越来越大，系统必须处理的难度也是越来越高。而这些正是我们需要通过交互式图表和仪表盘，来实现数据可视化的根本原因。在大幅节省用户的时间和精力
linux下vsftpd的安装及配置使用详细步骤(推荐)
vsftpd 是“very secure FTP daemon”的缩写，安全性是它的一个最大的特点。 vsftpd 是一个 UNIX 类操作系统上运行的服务器的名字，它可以运行在诸如 Linux、
C语言实现常用字符串库函数(推荐)
1、实现memcpy 将src所指向的内容拷贝到dst所指向的位置，拷贝len个字节。 memcpy是内存拷贝函数 memcpy在使用的时候不用考虑类型，以字节为单位进行拷贝
Centos7安装配置NFS服务和挂载教程(推荐)
现在有3台服务器 s1(主)，s2(从), s3（从）需要实现文件实时同步，我们可以安装Nfs服务端和客户端来实现！ 1、安装 NFS 服务器所需的软件包：
在JavaScript中查找字符串中最长单词的三种方法(推荐)
本文基于Free Code Camp基本算法脚本“查找字符串中最长的单词”。在此算法中，我们要查看每个单词并计算每个单词中有多少个字母。然后，比较计数以确定哪个单词的字符最多，并返回最长单词的长
Java中的IO流总结(推荐)
I/O简介 I/O是Input/output的缩写，在java中，对于数据的输入和输出以流的方式进行。java.io包下提供了各种“流”类和接口，用以获取不同种类的数据，并通过标准的方法输入或输出
docker容器源码部署httpd用存储卷部署网站(推荐)
目录 docker容器源码部署httpd，用存储卷部署网站创建一个httpd镜像部署nfs 挂载创建容器并映射
Python地理地图可视化folium标记点弹窗设置代码(推荐)
python代码如下： import webbrowser as wbimport foliumif __name__ == '__main__': loc = [30.679943, 104.0
介绍一款python类型检查工具pyright(推荐)
近日，微软在 Github 上开源了一个 Python 静态类型检查工具：pyright ，引起了社区内的多方关注。微软在开源项目上的参与力度是越来越大了，不说收购 Github 这种大的战略野
Linux线程退出方式总结(推荐)
在编写多线程代码时，经常面临线程安全退出的问题。一般情况下，选择检查标志位的方式：在线程的while循环中，执行完例程后，都对标志位进行检查，如果标志位指示继续执行则再次执行例程，如果标志
盘点Python加密解密模块hashlib的7种加密算法(推荐)
前言在程序中我们经常可以看到有很多的加密算法，比如说MD5 sha1等，今天我们就来了解下这下加密算法的吧，在了解之前我们需要知道一个模块嘛就是hashlib，他就是目前Python一个提供字符
Java中泛型总结(推荐)
java 泛型（generics）是 jdk 5 中引入的一个新特性, 泛型提供了编译时类型安全检测机制，该机制允许程序员在编译时检测到非法的类型。泛型的本质是参数化类型，也就是说所操作的数据类型
在Python中合并字典模块ChainMap的隐藏坑【推荐】
在Python中，当我们有两个字典需要合并的时候，可以使用字典的 update 方法，例如： a = {'a': 1, 'b': 2} b = {'x': 3, 'y': 4}
python模拟菜刀反弹shell绕过限制【推荐】
有的时候我们在获取到目标电脑时候如果对方电脑又python 编译环境时可以利用python 反弹shell 主要用到python os库和sokect库这里的服务端在目标机上运行

首页

博学

6Ren·AI

商城

mahout - mahout 的推荐评估器的工作原理