linux - 象夫基准-6ren

linux - 象夫基准

转载作者：太空宇宙更新时间：2023-11-04 13:01:40

29

4

我发现很难理解如何与 Mahout 交互。我有这个测试代码来训练和测试朴素贝叶斯分类。我想测量训练所需的时间，并且想从输出文件中读取准确度值。我不知道如何阅读输出文件或衡量以良好方式学习所需的时间(例如，我可以自动运行此脚本 10 次)。感谢您的帮助!

export WORK_DIR=/user/hue/Bayes-Test/newTestData
mahout seqdirectory -i ${WORK_DIR}/data-all -o ${WORK_DIR}/data-seq -ow 
mahout seq2sparse -i ${WORK_DIR}/data-seq -o ${WORK_DIR}/data-vectors -lnorm -nv -wt tfidf
mahout split -i ${WORK_DIR}/data-vectors/tfidf-vectors  --trainingOutput ${WORK_DIR}/train-vectors  --testOutput ${WORK_DIR}/test-vectors -randomSelectionPct 99  --overwrite --sequenceFiles -xm sequential 
mahout trainnb -i ${WORK_DIR}/train-vectors -el -o ${WORK_DIR}/model -li ${WORK_DIR}/labelindex -ow -c
mahout testnb -i ${WORK_DIR}/test-vectors -m ${WORK_DIR}/model -l ${WORK_DIR}/labelindex -ow -o ${WORK_DIR}/output-testing -c

最佳答案

mahout testnb 将显示训练模型在给定数据集上的表现的混淆矩阵和分类统计数据。它实际上并不输出任何文件到目录。

您提供的 -o ${WORK_DIR}/output-testing 参数实际上未被使用，因此:

mahout testnb -i ${WORK_DIR}/test-vectors -m ${WORK_DIR}/model -l ${WORK_DIR}/labelindex -ow -o ${WORK_DIR}/output-testing -c

应该改为:

mahout testnb -i ${WORK_DIR}/test-vectors -m ${WORK_DIR}/model -l ${WORK_DIR}/labelindex -c

这将显示一个混淆矩阵和一些统计数据——如下所示:

=======================================================
Statistics
-------------------------------------------------------
Kappa                                       0.8523
Accuracy                                   88.6853%
Reliability                                84.3296%
Reliability (standard deviation)            0.2171
Weighted precision                          0.8874
Weighted recall                             0.8869
Weighted F1 score                           0.8846

因此，如果您想多次运行，以测试挂钟时间或准确性或两者兼而有之，您可以将(调整后的)脚本的 stderr/stdout 通过管道传输到一个文本文件中，例如。运行次数的平均准确度(通过搜索“准确度”等)。如果您不想测量整个管道的挂钟时间，我建议只运行一次 seqdirectory 和 seq2sparse，因为这些步骤会占用大量时间，并循环 split trainnb 和 testnb。

对您的脚本进行一些调整:

export WORK_DIR=/user/hue/Bayes-Test/newTestData
mahout seqdirectory -i ${WORK_DIR}/data-all -o {WORK_DIR}/data-seq -ow 
// use either -lnorm -n 2 (log L2 length normalization) or no normalization
mahout seq2sparse -i ${WORK_DIR}/data-seq -o ${WORK_DIR}/data-vectors -nv -wt tfidf
// adjust the randomSelectionPct down to 40 for a 60/40 train/test set
mahout split -i ${WORK_DIR}/data-vectors/tfidf-vectors  --trainingOutput ${WORK_DIR}/train-vectors  --testOutput ${WORK_DIR}/test-vectors -randomSelectionPct 40  --overwrite --sequenceFiles -xm sequential 
mahout trainnb -i ${WORK_DIR}/train-vectors -o ${WORK_DIR}/model -li ${WORK_DIR}/labelindex -ow -c
mahout testnb -i ${WORK_DIR}/test-vectors -m ${WORK_DIR}/model -l ${WORK_DIR}/labelindex  -c

请注意:Mahout 有一个 Spark implementation of Naive Bayes可以从命令行和 programmatically 运行.这对确定准确性更有用。

关于linux - 象夫基准，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33732418/

29

4

0

文章推荐： linux - 如何让 git buildpackage 使用 bash 而不是 sh

文章推荐： java - 滚动日志文件未被清除

python - Python 基准
我想创建一个 Python 基准测试列表。现在我只找到了 this 中的标准基准测试问题和一些来自 Computer Language Benchmarks Game . Python 还有其他基准测
Hadoop 基准 : TestDFSIO
我正在使用 apache 提供的基准文件 TestDFSIO 测试我的 hadoop 配置。我正在根据本教程(资源 1)运行它: http://www.michael-noll.com/blog/20
ruby - 基准 ruby
我刚刚安装了 Ruby 企业版，想对我的系统 Ruby 运行一些基准测试。是否有我应该实现的规范基准测试？最佳答案最有趣最深入Ruby benchmarks Antonio Cangiano 的系
python - 可视化 ffmpeg 基准
我已经生成了基准，用于比较使用 ffmpeg 工具缩小视频文件 (mp4) 的两种方法。基准以这种格式记录: x.mp4 Output_Resolution : 360p Method : A re
codeigniter 基准 {memory_usage} 安全
我正在使用 codeigniter 制作一个网站。如果用户在他的评论中写入 {memory_usage} 2.75MB 将显示给他。它不会给 codeigniter 编写的代码带来安全漏洞吗？有什么
.net - 基准 XSLT 性能
我正在尝试对 XSLT 的两个版本进行基准测试。目前我使用 Visual Studio 进行调试，因为从 .NET 组件调用的 xml 转换。 VS 2010 是我用于开发的 IDE。我得到的唯一线
c - 如何使用源代码测量每个节点的 MPI 基准？
我想知道如何测量每个节点的内存带宽(流基准)。我的这个程序仅在一个节点上进行测量，进程和线程的数量如下: MPI_Comm_size(MPI_COMM_WORLD, &numranks); MPI_C
c# - EF 5 基准
我正在关注 performance test Dapper 社区创建的。目前，我在运行测试 10000 次后得到以下信息: EF 5 = 21595 毫秒 ADO.NET = 52183 毫秒小巧
c++ - 超过理论峰值 FLOPS 基准
为了测量 CPU 的峰值 FLOPS 性能，我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了？这是我写的代码: #include #incl
java - 基准 JUnit AllTests
有没有办法在 JUnit 测试套件中放置简单的开始/停止计时？当我创建一个测试套件类时，它看起来像这样，我可以运行它。但是我怎么能在这里放一个简单的长开始时间变量来显示所有测试运行了多长时间？ pu
mysql - 在同一个表中的多个线程上批量插入 MySQL 基准
我想测试MySQL数据库的InnoDB和MyRock引擎之间的高强度写入。为此，我使用 sysbench 进行基准测试。我的要求是: 多线程并发写入同一张表。支持批量插入(每次插入事务都会插入大量记
performance - 基准 Nodejs 项目
我正在尝试构建一个 Nodejs Web 应用程序。当我添加更多代码时，最好有一种方法来测试此类更改对性能的影响，如果可能的话，以及我的应用程序在哪些方面花费最多时间。我目前正在使用 mocha 作为
javascript - 为基于网络的动画设置 FPS 基准？
我希望编写一个简单的每秒帧数动画基准 Javascript 实用程序。 FPS 在这里可能是一个模糊的术语，但理想情况下，它可以让我更准确地比较和衡量不同动画 (CSS3/canvas/webgl)
python - 基准 Python 程序
我是 Python 新手。这是我的第一种解释语言。到目前为止，我曾经学习过Java。因此，当 Java 程序第一次运行时，它的执行速度比下一次要慢。reasi 正在缓存。 import time de
Apache 基准 HTTPS 失败
我在 Ubuntu 虚拟机中使用 Apache 2.4.2。我用它来加载测试，向某些 HTTPS url 发送请求。失败请求数为零。但是我的请求都无法真正处理(已经在数据库中查找)。使用相同的 url
javascript - WebGL 基准 - 我应该创建什么样的测试？
(我不确定这是否应该在 https://softwareengineering.stackexchange.com/ 上，如果您认为是，请评论) 我即将为我的学士论文创建 WebGL 实现的基准。我不
java - 有没有好的 Clojure 基准？
编辑: Clojure 基准测试已达到 the Benchmarks Game 。我已经制作了这个问题社区 wiki 并邀请其他人保持更新。有人知道 Clojure 的性能基准吗？我自己做了一些
json - 基准 : BSON vs JSON
关注 this benchmark BSON 需要更多的磁盘空间和时间来创建、序列化、反序列化和遍历所有元素。 BSON 的一大优势是，它的遍历速度要快得多。那么这个基准有什么问题呢？最佳答案你的
benchmarking - 基准 channel 创建 NextFlow
我正在 NextFlow 上执行分散-聚集操作。它看起来像下面这样: reads = PATH+"test_1.fq" outdir = "results" split_read_ch = chan
linux - Apache 基准 HTTPS 问题
我无法让apache benchmark与我的网站配合使用。每当我发出此命令时 ab https://example.com/ 我会得到这个输出错误: This is ApacheBench, Ver

首页

博学

6Ren·AI

商城

linux - 象夫基准