gpt4 book ai didi

Dataproc 上的 Pyspark 作业陷入阶段 0

转载 作者:行者123 更新时间:2023-12-02 15:47:25 25 4
gpt4 key购买 nike

我有一个包含 2 个工作节点的 Dataproc 集群。我的pyspark程序很简单

1) 从 Bigquery 读取 500MB 数据2)应用一些UDF3)根据某些条件显示 pyspark SQL 数据帧的结果

在第三步,作业陷入阶段 0 并且什么都不做。我是 Pyspark 的新手,但我不认为数据太大会导致它被挂起。请帮助我。

@亚当,

我的UDF来自RDkit库。是否可以提高 UDF 的效率,使输出以秒为单位?

from rdkit import Chem

user_smile_string = 'ONC(=O)c1ccc(I)cc1'
mol = Chem.MolFromSmiles(user_smile_string)

def Matched(smile_structure):
try:
match = mol.HasSubstructMatch(Chem.MolFromSmiles(smile_structure))
except Exception:
pass
else:
return (match)

最佳答案

正如评论中提到的,您需要对工作进行故障排除才能了解发生了什么。

您可以从探索job driver output开始, job logsSpark job DAG可从 Google Cloud UI 访问。

如果这不会产生任何有用的信息,那么您需要 enable debug logging Spark 中并从那里开始。

关于Dataproc 上的 Pyspark 作业陷入阶段 0,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60043426/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com