gpt4 book ai didi

mahout - 在 mahout 0.8 中运行 cvb

转载 作者:行者123 更新时间:2023-12-04 16:40:11 27 4
gpt4 key购买 nike

当前的 Mahout 0.8-SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 (cvb) 版本并删除了潜在狄利克雷分析 (lda) 方法,因为 cvb 可以更好地并行化。不幸的是,只有 lda 的文档关于如何运行示例并生成有意义的输出。

因此,我想:

  • 正确预处理一些文本
  • 运行 cvb0_local 版本的 cvb
  • 通过查看每个生成主题中的前 n 个单词来检查结果
  • 最佳答案

    所以这里是我必须在 linux shell 中调用的后续 Mahout 命令来完成它。
    $MAHOUT_HOME 指向我的 mahout/bin 文件夹。

    $MAHOUT_HOME/mahout seqdirectory \
    -i path/to/directory/with/texts \
    -o out/sequenced

    $MAHOUT_HOME/mahout seq2sparse -i out/sequenced \
    -o out/sparseVectors \
    --namedVector \
    -wt tf

    $MAHOUT_HOME/mahout rowid \
    -i out/sparseVectors/tf-vectors/ \
    -o out/matrix

    $MAHOUT_HOME/mahout cvb0_local \
    -i out/matrix/matrix \
    -d out/sparseVectors/dictionary.file-0 \
    -a 0.5 \
    -top 4 -do out/cvb/do_out \
    -to out/cvb/to_out

    通过显示每个主题的前 10 个单词来检查输出:
    $MAHOUT_HOME/mahout vectordump \
    -i out/cvb/to_out \
    --dictionary out/sparseVectors/dictionary.file-0 \
    --dictionaryType sequencefile \
    --vectorSize 10 \
    -sort out/cvb/to_out

    关于mahout - 在 mahout 0.8 中运行 cvb,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14757162/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com