gpt4 book ai didi

hadoop - 如何使用 Mahout 的序列文件 API 代码?

转载 作者:可可西里 更新时间:2023-11-01 14:32:12 26 4
gpt4 key购买 nike

在 Mahout 中存在一个创建序列文件的命令为 bin/mahout seqdirectory -c UTF-8
-i <input address> -o <output address>
.我想将此命令用作代码 API。

最佳答案

你可以这样做:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;


Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);

Path outputPath = new Path("c:\\temp");

Text key = new Text(); // Example, this can be another type of class
Text value = new Text(); // Example, this can be another type of class

SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, outputPath, key.getClass(), value.getClass());

while(condition) {

key = Some text;
value = Some text;

writer.append(key, value);
}

writer.close();

您可以找到更多信息herehere

此外,您可以使用 org.apache.mahout.text.SequenceFilesFromDirectory

调用您在 Mahout 中描述的完全相同的功能

然后调用看起来像这样:

ToolRunner.run(new SequenceFilesFromDirectory(), String[] args //your parameters);

ToolRunner 来自org.apache.hadoop.util.ToolRunner

希望这对您有所帮助。

关于hadoop - 如何使用 Mahout 的序列文件 API 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11645294/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com