gpt4 book ai didi

java - 如何解析 CSV 文件以便 Mahout 对其进行分类

转载 作者:搜寻专家 更新时间:2023-11-01 03:51:57 25 4
gpt4 key购买 nike

我正在尝试使用 Mahout 对 CSV 文件进行分类,我的理解是,首先我需要将 CSV 中的数据转换为 vector ,然后可供其中一种 mahout 分类算法使用。我的 CSV 文件由文本和类似单词的值以及多个类组成。

enter image description here

我在这里搜索并找到了一些关于如何执行此操作的模糊解释,但找不到任何示例。任何人都可以提供一个简单的例子来说明如何做到这一点吗?或者是否有任何可用的实用程序可以为您执行此操作?

我原以为这是一项非常常见的任务,但实际上找不到任何明确的例子。

任何帮助将不胜感激。

最佳答案

您有一些文本和类似单词的值,因此您可能应该使用 20 新闻组示例来获得灵感。这是一个很好的例子,你可以很容易地从它的 csv 文件中复制代码。

这是 20 新闻组最新版本的 mahout 的工作链接:

https://github.com/jpatanooga/MahoutExamples/blob/master/src/main/java/com/cloudera/mahout/classification/sgd/TwentyNewsgroups.java

只有通过更改 TokenSream 对象对 countWords 方法进行修改,这里是上一版 Mahout 的工作代码:

private static void countWords(Analyzer analyzer, Collection<String> words, Reader in) throws IOException {

// use the provided analyzer to tokenize the input stream
TokenStream ts = analyzer.tokenStream("text", in);
ts.addAttribute(CharTermAttribute.class);
ts.reset();

// for each word in the stream, minus non-word stuff, add word to collection
while (ts.incrementToken()) {
String s = ts.getAttribute(CharTermAttribute.class).toString();
words.add(s);
}
ts.end();
ts.close();

/*overallCounts.addAll(words);*/
}

希望对您有所帮助。我用这个例子来适应 CSV 文件并且它有效。

关于java - 如何解析 CSV 文件以便 Mahout 对其进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24039881/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com