gpt4 book ai didi

java - 当 DataFrame 有列时如何使用 Java Apache Spark MLlib?

转载 作者:行者123 更新时间:2023-11-30 09:35:19 25 4
gpt4 key购买 nike

所以我是 Apache Spark 的新手,我有一个如下所示的文件:

Name     Size    Records 
File1 1,000 104,370
File2 950 91,780
File3 1,500 109,123
File4 2,170 113,888
File5 2,000 111,974
File6 1,820 110,666
File7 1,200 106,771
File8 1,500 108,991
File9 1,000 104,007
File10 1,300 107,037
File11 1,900 111,109
File12 1,430 108,051
File13 1,780 110,006
File14 2,010 114,449
File15 2,017 114,889

这是我的示例/测试数据。我正在开发一个异常检测程序,我必须测试具有相同格式但不同值的其他文件,并检测哪个文件的大小和记录值存在异常(如果另一个文件上的大小/记录与标准文件有很大差异) ,或者如果大小和记录彼此不成比例)。我决定开始尝试不同的 ML 算法,并且想从 k-Means 方法开始。我尝试将此文件放在以下行中:

KMeansModel model = kmeans.fit(file)

文件已解析为数据集变量。但是我收到一个错误,我很确定它与文件的结构/模式有关。当尝试适应模型时,有没有办法处理结构化/标记/组织数据?

我收到以下错误:线程“main”java.lang.IllegalArgumentException中出现异常:字段“features”不存在。

这是代码:

public class practice {

public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("Anomaly Detection").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);

SparkSession spark = SparkSession
.builder()
.appName("Anomaly Detection")
.getOrCreate();

String day1 = "C:\\Users\\ZK0GJXO\\Documents\\day1.txt";

Dataset<Row> df = spark.read().
option("header", "true").
option("delimiter", "\t").
csv(day1);
df.show();
KMeans kmeans = new KMeans().setK(2).setSeed(1L);
KMeansModel model = kmeans.fit(df);
}

}

谢谢

最佳答案

默认情况下,所有 Spark ML 模型都在名为“features”的列上进行训练。可以通过 setFeaturesCol 方法指定不同的输入列名称 http://spark.apache.org/docs/latest/api/java/org/apache/spark/ml/clustering/KMeans.html#setFeaturesCol(java.lang.String)

更新:

可以使用 VectorAssembler 将多个列组合成一个特征向量:

VectorAssembler assembler = new VectorAssembler()
.setInputCols(new String[]{"size", "records"})
.setOutputCol("features");

Dataset<Row> vectorized_df = assembler.transform(df)

KMeans kmeans = new KMeans().setK(2).setSeed(1L);
KMeansModel model = kmeans.fit(vectorized_df);

可以使用管道 API 进一步简化和链接这些功能转换 https://spark.apache.org/docs/latest/ml-pipeline.html#example-pipeline

关于java - 当 DataFrame 有列时如何使用 Java Apache Spark MLlib?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44597493/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com