gpt4 book ai didi

python - Qubole 中的宽数据 PySpark 机器学习

转载 作者:行者123 更新时间:2023-11-30 09:59:29 25 4
gpt4 key购买 nike

我有一个大型数据集,大约有 250 个特征,我想在梯度增强树分类器中使用它。我有数百万个观测值,但即使是 1% 的数据(约 30 万个观测值),我也无法让模型正常工作。下面是我的代码片段。我无法为您分享任何数据,但所有特征都是数字(无论是数字变量还是各种因子水平的虚拟变量)。我使用 VectorAssembler 创建一个 features 变量,其中包含来自相应观察的特征向量。

当我减少模型使用的特征数量(例如 5 个)时,模型运行没有问题。只有当我通过添加大量功能使问题变得更加复杂时,它才会开始失败。我收到的错误是TTransport Exception。该模型将尝试运行几个小时,然后才会出错。我正在使用 Qubole 构建我的模型。我对 Qubole 和 PySpark 都很陌生,所以我不确定我的问题是否是 Spark 内存问题、Qubole 内存(我的集群有 4+ TB,数据只有几 GB)等。

任何关于测试/调试的想法或想法都会有帮助。谢谢。

train = train.withColumnRenamed(target, "label")
test = test.withColumnRenamed(target, "label")

evaluator = BinaryClassificationEvaluator()
gbt = GBTClassifier(maxIter=10)
gbtModel = gbt.fit(train)
gbtPredictions = gbtModel.transform(test)
gbtPredictions.select('label','rawPrediction', 'prediction', 'probability').show(10)

print("Test Area Under ROC: " + str(evaluator.evaluate(gbtPredictions, {evaluator.metricName: "areaUnderROC"})))

最佳答案

您想尝试这个 https://docs.qubole.com/en/latest/troubleshooting-guide/notebook-ts/troubleshoot-notebook.html#ttexception 。如果这仍然没有帮助,请随时向我们创建支持票证,我们很乐意进行调查。

关于python - Qubole 中的宽数据 PySpark 机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59568303/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com