gpt4 book ai didi

python - 在 DataBrick 平台中为 PySpark API 安装 IsolationForest 的最佳做法是什么?

转载 作者:行者123 更新时间:2023-12-05 02:39:52 25 4
gpt4 key购买 nike

我正在尝试在 DataBrick 平台上安装 Isolation Forest 包。 databrick中spark的版本是3.1.1:

print (pyspark.__version__) 
#3.1.1

所以我试着按照这个article实现 IsolationForest 但我无法从这个 repo 安装包通过以下步骤:

Step 1. Package spark-iforest jar and deploy it into spark lib

cd spark-iforest/

mvn clean package -DskipTests

cp target/spark-iforest-.jar $SPARK_HOME/jars/

Step 2. Package pyspark-iforest and install it via pip, skip this step if you don't need the >python pkg

cd spark-iforest/python

python setup.py sdist

pip install dist/pyspark-iforest-.tar.gz

所以基本上我运行以下脚本并得到:ModuleNotFoundError: No module named 'pyspark_iforest'

from pyspark import SparkConf
from pyspark.sql import SparkSession, functions as F
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark_iforest.ml.iforest import IForest, IForestModel
import tempfile

conf = SparkConf()
conf.set('spark.jars', '/full/path/to/spark-iforest-2.4.0.jar')

spark = SparkSession \
.builder \
.config(conf=conf) \
.appName("IForestExample") \
.getOrCreate()

temp_path = tempfile.mkdtemp()
iforest_path = temp_path + "/iforest"
model_path = temp_path + "/iforest_model"

DataBrick 平台中为 PySpark 安装 IsolationForest 的最佳做法是什么?

最佳答案

此特定版本的隔离林是为 Spark 2.4 and Scala 2.11 编译的,并且与您正在使用的 Spark 3.1 二进制不兼容。您可以尝试使用基于 Spark 2.4 - 6.4 或 5.4 的 Databricks Runtime (DBR) 版本。

您可以查看 mmlspark (Microsoft Machine Learning for Apache Spark) 由 Microsoft 开发的库 - 它有一个 implementation of IsolationForest ,虽然我自己没用过。

关于python - 在 DataBrick 平台中为 PySpark API 安装 IsolationForest 的最佳做法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68897278/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com