gpt4 book ai didi

java - Mahout:使用Java矢量化包含文档的文件夹

转载 作者:行者123 更新时间:2023-12-02 21:47:45 24 4
gpt4 key购买 nike

经过大量的搜索之后,恐怕找不到将目录中的文本文件转换为输出目录中的mahout vector的方法,因此可以再次运行LDA聚类。

我只有发现要处理Linux Shell脚本。

因为我正在使用Windows,所以我无法运行shell脚本,而且,我想避免使用cygwin。因此,实际上,我只能使用Java api。

我正在使用mahout 0.9。

最佳答案

您可以使用Mahout-Integration包中的SequenceFilesFromDirectory作业从目录中创建序列文件。

然后,您可以使用Mahout-MapReduce-Legacy软件包(0.9中的Mahout-Core软件包)中的SparseVectorsFromSequenceFiles作业创建Mahout稀疏 vector 。

这些分别是seqdirectory和seq2sparse的驱动程序,其参数可以在这里找到:mahout.apache.org/users/basics/creating-vectors-from-text.html

关于java - Mahout:使用Java矢量化包含文档的文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23740937/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com