hadoop - Mahout LDA给出FileNotFound异常-6ren

hadoop - Mahout LDA给出FileNotFound异常

转载作者：行者123 更新时间：2023-12-02 21:58:09

26

4

我像here所示创建了术语 vector ，如下所示:

~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i /home/ben/Scripts/eipi/mahout_out -o /home/ben/Scripts/eipi/termvecs -wt tf -seq

然后我跑

~/Scripts/Mahout/trunk/bin/mahout lda -i /home/ben/Scripts/eipi/termvecs -o /home/ben/Scripts/eipi/lda_working -k 2 -v 100

我得到:

MAHOUT-JOB: /home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob: Command line arguments: {--endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts/eipi/lda_working, --startPhase=0, --tempDir=temp, --topicSmoothing=-1.0} 11/09/04 16:29:00 INFO lda.LDADriver: LDA Iteration 1 11/09/04 16:29:01 INFO input.FileInputFormat: Total input paths to process : 4 11/09/04 16:29:01 INFO mapred.JobClient: Cleaning up the staging area file:/tmp/hadoop-ben/mapred/staging/ben692167368/.staging/job_local_0001 Exception in thread "main" java.io.FileNotFoundException: File file:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data does not exist. at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:371) at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245) at org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:63) at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:252) at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:902) at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:919) at org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170) at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:838) at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:791) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059) at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:791) at org.apache.hadoop.mapreduce.Job.submit(Job.java:465) at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:494) at org.apache.mahout.clustering.lda.LDADriver.runIteration(LDADriver.java:426) at org.apache.mahout.clustering.lda.LDADriver.run(LDADriver.java:226) at org.apache.mahout.clustering.lda.LDADriver.run(LDADriver.java:174) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.mahout.clustering.lda.LDADriver.main(LDADriver.java:90) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:68) at org.apache.hadoop.util.ProgramDriver.driver(ProgramDriver.java:139) at org.apache.mahout.driver.MahoutDriver.main(MahoutDriver.java:188) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

是的，该文件不存在。我应该如何创建它？

最佳答案

vector 可能是空的，因为它们的创建可能存在问题。检查 vector 是否在其文件夹中成功创建(文件大小不为0字节)。如果您输入的文件夹缺少某些文件，则可能会发生此错误。在这种情况下，尽管没有创建有效的输出，但这两个步骤将起作用。

关于hadoop - Mahout LDA给出FileNotFound异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7309630/

26

4

0

文章推荐： java - Hadoop循环 reducer

文章推荐： scenekit - 为什么高速物体会部分穿过静态物理体？

文章推荐： Couchbase 2.2.0 文档大小编辑限制

文章推荐： hadoop - Hive-UDF怎么了？如何设置Hive的 map 编号？

lda - LDA 可以为一个单词分配多个主题吗？
我刚刚开始阅读有关潜在狄利克雷分配 LDA 的内容，并希望将其应用到我的项目中。请问 LDA 是否能够将一个主题分配给多个单词？例如，文章A谈论“河岸”，而文章B谈论“银行在金融中的作用”。因此，
lda - LDA 可以为一个词分配多个主题吗？
我刚刚开始阅读有关 Latent Dirichlet Allocation LDA 的内容，并想将其应用到我的项目中。我可以知道 LDA 是否能够将一个主题分配给多个单词吗？例如，A 条谈到“河岸
lda - 从 lda gensim 检索主题词数组和文档主题数组
情况: 我有一个 numpy 术语文档矩阵例如:[[0,1,0,0....],....[......0,0,0,0]]。我已将上述矩阵插入到 gensim 的 ldamodel 方法中。并且使用
lda - gensim lda 模型 - 用看不见的单词调用语料库的更新
我正在尝试使用 gensim's lda模型。如果我用给定的语料库创建 lda 模型，然后我想用一个新的语料库更新它，其中包含在第一个语料库中看不到的单词，我该怎么做？当我尝试调用 lda_model
r - 使用 MASS :lda() 在 LDA 中观察线性判别式的访问分数
library(MASS) example(lda) plot(z) 如何访问 z 中的所有点？我想知道 LD1 和 LD2 上每个点的值，具体取决于它们的 Sp (c,s,v)。最佳答案您正在寻
lda - 我如何测量用 R 中的 textmineR 包制作的 LDA 模型的困惑度分数？
我在 R 中制作了一个 LDA 主题模型，使用 textmineR 包，如下所示。 ## get textmineR dtm dtm2 2] dtm2 2] ###################
lda - 在 LDA 模型中设置超参数 alpha 和 theta 的规则
我想知道更多关于LDA模型中是否有设置超参数alpha和theta的规则。我运行图书馆提供的 LDA 模型 gensim : ldamodel = gensim.models.ldamodel.Lda
python - lda[doc_bow] 和 lda.inference(corpus) 之间的区别是什么？
我认为在 LDA 模型中，这些是使用现有模型推断新文档的两种方法。这两种方法有什么区别？最佳答案我做了一些测试，我的 ldamodel 有 8 个主题，这里是我的结果:2 个预测主题的文档: li
python - sklearn.lda.LDA() 和 sklearn.discriminant_analysis.LinearDiscriminantAnalysis() 之间的区别
在阅读有关使用 python 的 LinearDiscriminantAnalysis 的过程中，我有两种不同的方法来实现它，可在此处获得， http://scikit-learn.org/stabl
gensim - 使用 Gensim 或其他 python LDA 包来使用 Mallet 中经过训练的 LDA 模型
我有一个通过 Java 中的 Mallet 训练的 LDA 模型。 Mallet LDA 模型生成了三个文件，这使我能够从文件运行模型并推断新文本的主题分布。现在我想实现一个 Python 工具，它
apache-spark - Spark MLlib LDA : the possible reasons behind generating always very similar LDA topics?
我正在将 MLlib LDA example 应用于从 enter link description here 下载的各种语料库我正在过滤掉停用词，并排除非常频繁的术语和非常罕见的术语。问题是我总是有
lda - 潜在狄利克雷分配解决方案示例
我正在尝试了解潜在狄利克雷分配(LDA)。我有机器学习和概率论的基础知识，并基于这篇博文 http://goo.gl/ccPvE我能够开发 LDA 背后的直觉。但是，我仍然没有完全了解其中的各种计算。
lda - 大数据集主题建模工具 (30GB)
我正在寻找一些适用于大型数据集的主题建模工具。我当前的训练数据集是 30 GB。我试过 MALLET topic modeling ，但我总是得到 OutOfMemoryError。如果您有任何提
R - LDA 主题模型输出数据
我正在使用“topicmodels”包在 R 中构建一些主题模型。在预处理并创建文档术语矩阵后，我正在应用以下 LDA Gibbs 模型。这可能是一个简单的答案，但我是 R 的新手，所以就这样吧。有没
r - LDA 贡献双标图
我正在尝试为线性判别分析 (LDA) 创建双标图。我正在使用从这里获得的代码的修改版本 https://stats.stackexchange.com/questions/82497/can-the-
python - 按主题选择文本 (LDA)
是否可以查找某个主题(由 LDA 确定)内的文本？我有一个包含 5 个主题的列表，每个主题有 10 个单词，是使用 lda 找到的。我分析了数据框列中的文本。我想选择/过滤某个特定主题中的行/文本
sampling - LDA:为什么要采样以推断新文档？
给定一个标准 LDA 模型，其中包含 1000 个主题和数百万个文档，并使用 Mallet/折叠吉布斯采样器进行训练: 在推断新文档时:为什么不直接跳过采样并简单地使用模型的术语主题计数来确定新文档的
LDA 主题建模 - 训练和测试
我读过 LDA，并且了解当一个人输入一组文档时如何生成主题的数学原理。引用文献称，LDA 是一种算法，只要给定一个文档集合(无需任何监督)，就可以揭示该集合中的文档所表达的“主题”。因此，通过使用
scala - LDA 交叉验证评估器
我希望将交叉验证应用于 LDA 算法以确定主题的数量(K)。我的疑问是关于评估者，因为我希望使用对数似然。创建交叉验证时，我在 .setEvaluator(????) 上设置了什么？ // Defi
Gensim LDA 主题分配
我希望使用 LDA 将每个文档分配给一个主题。现在我意识到你得到的是来自 LDA 的主题分布。然而，正如您从下面的最后一行中看到的那样，我将其分配给了最可能的主题。我的问题是这样的。我必须第二次运行

首页

博学

6Ren·AI

商城

hadoop - Mahout LDA给出FileNotFound异常