gpt4 book ai didi

apache-spark - 异常值检测算法spark mllib

转载 作者:行者123 更新时间:2023-11-30 08:26:50 30 4
gpt4 key购买 nike

Spark 2.0.0 中是否有任何预构建的异常值检测算法/四分位距识别方法?我在这里找到了一些代码,但我认为这在spark2.0.0中尚不可用

谢谢

最佳答案

如果您没有找到预构建的方法,您可以执行类似的操作:

使用盒须图进行异常值检测的示例:

val sampleData = List(10.2, 14.1,14.4,14.4,14.4,14.5,14.5,14.6,14.7,
14.7, 14.7,14.9,15.1, 15.9,16.4)
val rowRDD = sparkSession.sparkContext.makeRDD(sampleData.map(value => Row(value)))
val schema = StructType(Array(StructField("value",DoubleType)))
val df = sparkSession.createDataFrame(rowRDD,schema)
val quantiles = df.stat.approxQuantile("value", Array(0.25,0.75),0.0)
val Q1 = quantiles(0)
val Q3 = quantiles(1)
val IQR = Q3 - Q1
val lowerRange = Q1 - 1.5*IQR
val upperRange = Q3+ 1.5*IQR

val outliers = df.filter(s"value < $lowerRange or value > $upperRange")
outliers.show()

解决方案来源:

Outlier Detection using Quantiles

关于apache-spark - 异常值检测算法spark mllib,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39929768/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com