gpt4 book ai didi

python - 使用 python : how to add a UUID column? 进行 Spark 流式传输

转载 作者:行者123 更新时间:2023-11-28 18:13:40 25 4
gpt4 key购买 nike

我想在我的数据框中添加一个带有生成的 ID 的列。我试过:

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())

但是,当我这样做时,没有任何内容写入我的输出目录。当我删除这些行时,一切正常,所以肯定有一些错误,但我在控制台中看不到任何内容。

我曾尝试使用 monotonically_increasing_id() 而不是生成 UUID,但在我的测试中,这会产生许多重复项。我需要一个唯一标识符(不一定是 UUID)。

我该怎么做?

最佳答案

请试试这个:

import uuid
from pyspark.sql.functions import udf

uuidUdf= udf(lambda : str(uuid.uuid4()),StringType())
Df1 = Df.withColumn("id",uuidUdf())

注意:您应该在添加新列后分配给新的 DF。 (Df1 = Df.withColumn(....)

关于python - 使用 python : how to add a UUID column? 进行 Spark 流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49785108/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com