python - Hyperopt 与 Spark MlLib 集成-6ren

python - Hyperopt 与 Spark MlLib 集成

转载作者：行者123 更新时间：2023-12-04 04:17:46

26

4

有没有人有将 Hyperopt 集成到 Spark 的 MlLib 中的好例子？我一直在尝试在 Databricks 上这样做，并继续遇到同样的错误。我不确定这是否是我的目标函数的问题，或者它是否与 pyspark 上的 Spark ML 以及它如何连接到 Databricks 有关。

import itertools
from pyspark.sql import functions as f
from pyspark.sql import DataFrame
from pyspark.sql.types import *

from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.feature import OneHotEncoder, Imputer, VectorAssembler, StringIndexer
from pyspark.ml.classification import RandomForestClassifier, LogisticRegression, GBTClassifier
from pyspark.ml.classification import GBTClassificationModel
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder, CrossValidatorModel
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
import numpy as np
from itertools import product
from hyperopt import fmin, hp, tpe, STATUS_OK, SparkTrials
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

search_space ={'maxDepth'   : hp.choice("maxDepth", np.arange(3, 8, dtype=int)),
        'maxIter'       : hp.uniform("maxIter", 200,800),
        'featureSubsetStrategy' : str(hp.quniform("featureSubsetStrategy", .5,1,.1)),
        'minInstancesPerNode' : hp.uniform("min_child_weight", 1,10),
        'stepSize'    : hp.loguniform('stepSize', np.log(0.01), np.log(0.1)),
        'subsamplingRate'    : hp.quniform("featureSubsetStrategy", .5,1,.1)   
    }
evaluator = BinaryClassificationEvaluator(labelCol="positive")

def train(params):
  gbtModel = GBTClassifier(labelCol="positive", featuresCol="features").fit(train)
  predictions_val = gbtModel.predict(val.map(lambda x: x.features))
  labelsAndPredictions = val.map(lambda lp: lp.label).zip(predictions_val)
  ROC = evaluator.evaluate(predictions_val, {evaluator.metricName: "areaUnderROC"})

  return {'ROC': ROC, 'status': STATUS_OK}



N_HYPEROPT_PROBES = 1000 #can increase, keep small for testing
EARLY_STOPPING = 50
HYPEROPT_ALGO = tpe.suggest
NB_CV_FOLDS = 5 # for testing, can increase

obj_call_count = 0
cur_best_score = 1000000
spark_trials = SparkTrials(parallelism=4)
best = fmin(fn=train,
             space=search_space,
              algo=HYPEROPT_ALGO,
                     max_evals=N_HYPEROPT_PROBES,
                     trials=spark_trials,
                     verbose=1)

运行后出现以下错误:

总试验:0:0 次成功，0 次失败，0 次取消。 py4j.Py4JException: 方法 __getstate__([]) 不存在

最佳答案

不确定这是否为时已晚，但 SparkTrials 仅适用于单机 ML 模型，例如 scikit-learn 库中的模型。对于 Spark MLib，您应该使用 Trials(您不需要将 trials 参数传递给 fmin 函数)

您可以在此处找到更多详细信息: http://hyperopt.github.io/hyperopt/scaleout/spark/

Since SparkTrials fits and evaluates each model on one Spark worker, it is limited to tuning single-machine ML models and workflows, such as scikit-learn or single-machine TensorFlow. For distributed ML algorithms such as Apache Spark MLlib or Horovod, you can use Hyperopt’s default Trials class.

关于python - Hyperopt 与 Spark MlLib 集成，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60213506/

26

4

0

文章推荐： scala - 与Frege一起运行的Akka比Scala竞争对手慢

c# - Windows 集成 (NTLM) 身份验证与 Windows 集成 (Kerberos)
Windows 集成 (NTLM) 身份验证和 Windows 集成 (Kerberos) 之间有什么区别？如何在IIS6中实现这些 w.r.t. MSDN 最佳答案 Kerberos 和 NTLM
node.js - 无法将 Keycloak 与 Sails 集成。能够将 Keycloak 与 Express 集成
Keycloak是一个用 Java 编写的开源身份验证和身份管理解决方案。它提供了一个nodejs适配器，使用它我能够成功地与express集成。这是有效的路由文件: 'use strict'
Bamboo 集成
这是我关于 Bamboo 的第二个问题 ( My First One )。阅读建议信息后我的理解是，我需要一个构建工具，例如 nAnt 或 MSbuild 来编写一个获取源代码并构建它的脚本(我正在开
JIRA 集成
可用于将第三方应用程序与 jira 4.3 集成的身份验证方案有哪些？显然，从客户那里获取用户名和密码听起来很荒谬。另外，我知道 oauth 身份验证仅适用于版本 5。请告诉我。谢谢。附注。我不是在
JMS/DDS 集成
我有一个使用 DDS 的旧版 C++ 应用程序用于异步通信/消息传递。我需要将此应用程序集成到使用 JMS 进行消息传递的 JavaEE 环境中。除了构建独立的 JMS/DDS 桥接模块之外，我还有其
Clickatell - Whatsapp 集成
我正在尝试使用 Whatsapp 发送测试消息，但收到此错误消息: "error":{"code":27,"description":"Recipient not available on chann
django - 集成 Photologue
我想将 photologue 与我的 Django 应用程序集成，并使用它在车辆库存中显示照片......有点像 Boost Motor Group Inc. 提供的内容。我已经集成了该应用程序，所以
scanning - ScanSnap 集成
我目前正在尝试弄清楚如何与 fujitsu scansnap 扫描仪集成，但没有从 fujitsu 找到有关 fujitsu scansnap 管理器如何调用您的应用程序并将文件发送到您的应用程序的详
Spring 集成 - 多入站适配器不起作用
在我的项目中，我使用了 9 个(九个)int-ip:udp-inbound-channel-adapter 和一个 jms:inbound-channel-adapter。 Jms 适配器从服务器接收
JSF/Applet 集成
在我们当前的原型(prototype)中，大多数标准 HTML 控件都被小程序取代，最重要的是表单提交由小程序触发。有没有一种方法可以像一样在服务器端调用关联的操作 ? 本文Applet and
Twilio whatsapp 集成
是否可以使用 twilio 号码从 whatsapp 发送/接收短信？有人用whatsapp试过twilio吗？我问过客服，如果可能的话，他说，不确定，但很多人都问过这个问题。最佳答案万一其他人来
svn - SVN是否与Notepad++集成？
我们办公室中几乎不存在版本控制，这显然导致了很多麻烦。我们想使用SVN和Notepad++进行设置...任何人都对如何实现此目标有任何想法？我已经开始研究并浏览了这个网站: http://www.sw
Spring-Drools 集成？
曾经有提供这种集成的 spring-modules 项目；但是，该项目现已弃用。现在有没有人继续支持这种集成？谢谢。最佳答案工作正在进行中。 http://blog.athico.com/sear
DBpedia/Yago 集成
我的理解是，根据 http://wiki.dbpedia.org/Datasets，DBpedia 从 YAGO 获取类层次结构，而不是实体。 .但是，类似 http://dbpedia.org/cl
Opencms Spring 集成
任何人都可以帮助我如何将 OpenCMS 与 Java Spring Web 应用程序集成。已经用谷歌搜索并浏览了很多网站但没有用。所以，请帮助我。最佳答案我认为将 SpringMVC 与 Ope
integration - MPGS 集成
我正在尝试使用新的 migs getaway (MPGS) 我遵循了下一个 url 中的代码 https://ap-gateway.mastercard.com/api/documentation/i
TeamCity gitlab 集成
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
Vim Cmake 集成
我有一个 cmake 项目。我想轻松完成以下操作搜索光标下任何变量、函数等的声明、定义和引用，这些可能在外部头文件中声明，其路径是在CMakeLists.txt中使用INCLUDE_DIRECTOR
iPhone FTP 集成
有人能给我指点一下 Objective-C(或 c/c++)库的方向，或者教通过 FTP 上传或下载的教程(Objective-C)吗？最好能展示如何将文件下载到临时目录，然后稍后上传？我不介意针对
r - 集成()给出了完全错误的数字
集成()给出了非常错误的答案: integrate(function (x) dnorm(x, -5, 0.07), -Inf, Inf, subdivisions = 10000L) # 2.127

首页

博学

6Ren·AI

商城

python - Hyperopt 与 Spark MlLib 集成