gpt4 book ai didi

apache-spark - 将功能应用于Spark中的CSV的单个列

转载 作者:行者123 更新时间:2023-12-03 21:25:01 24 4
gpt4 key购买 nike

使用Spark我正在读取一个csv,并想将一个函数应用于csv上的列。我有一些有效的代码,但它很hacky。正确的方法是什么?

我的密码

SparkContext().addPyFile("myfile.py")
spark = SparkSession\
.builder\
.appName("myApp")\
.getOrCreate()
from myfile import myFunction

df = spark.read.csv(sys.argv[1], header=True,
mode="DROPMALFORMED",)
a = df.rdd.map(lambda line: Row(id=line[0], user_id=line[1], message_id=line[2], message=myFunction(line[3]))).toDF()


我希望能够仅在列名上调用该函数,而不是将每行映射到 line,然后在 line[index]上调用该函数。

我正在使用Spark版本2.0.1

最佳答案

您可以简单地将用户定义函数(udf)与withColumn结合使用:

from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf

udf_myFunction = udf(myFunction, IntegerType()) # if the function returns an int
df.withColumn("message", udf_myFunction("_3")) #"_3" being the column name of the column you want to consider


这会将新列添加到包含 df结果的数据框 myFunction(line[3])中。

关于apache-spark - 将功能应用于Spark中的CSV的单个列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40977625/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com