pyspark - pyspark udf 的参数数量可变-6ren

pyspark - pyspark udf 的参数数量可变

转载作者：行者123 更新时间：2023-12-02 20:49:09

27

4

我有大约 275 列，我想在 25 列中搜索正则表达式字符串 "^D(410|412)。如果此搜索字符串出现在 25 列中的任何一列中，我想将 true 添加到 MyNewColumn。

使用下面的方法我可以对 2 列执行此操作。无论如何，是否可以传递可变数量的列？

下面的代码适用于 2 列

def moreThanTwoArgs(col1,col2): 
return bool((re.search("^D(410|412)",col1) or re.search("^D(410|412)",col2)))

twoUDF= udf(moreThanTwoArgs,BooleanType())
df = df.withColumn("MyNewColumn", twoUDF(df["X1"], df["X2"]))

最佳答案

我尝试了一些类似的示例代码，尝试一下并继续:-

df1 = sc.parallelize(
        [
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
    ]).toDF(['c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7', 'c8', 'c9', 'c10'])
df1.show()
+---+---+---+---+---+---+---+---+---+---+
| c1| c2| c3| c4| c5| c6| c7| c8| c9|c10|
+---+---+---+---+---+---+---+---+---+---+
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|
+---+---+---+---+---+---+---+---+---+---+


import pyspark.sql.functions as F
import pyspark.sql.types as T
import re

def booleanFindFunc(*args):
    return sum(args)

udfBoolean = F.udf(booleanFindFunc, T.StringType())


#Below is Sum of three columns (c1+c2+c2)
df1.withColumn("MyNewColumn", booleanFindFunc(F.col("c1"), F.col("c2"), F.col("c2"))).show()
+---+---+---+---+---+---+---+---+---+---+-----------+
| c1| c2| c3| c4| c5| c6| c7| c8| c9|c10|MyNewColumn|
+---+---+---+---+---+---+---+---+---+---+-----------+
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|          5|
+---+---+---+---+---+---+---+---+---+---+-----------+



#Below is Sum of All Columns (c1+c2+c3---+c10)
df1.withColumn("MyNewColumn", booleanFindFunc(*[F.col(i) for i in df1.columns])).show()

+---+---+---+---+---+---+---+---+---+---+-----------+
| c1| c2| c3| c4| c5| c6| c7| c8| c9|c10|MyNewColumn|
+---+---+---+---+---+---+---+---+---+---+-----------+
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         55|
+---+---+---+---+---+---+---+---+---+---+-----------+

#Below is Sum of All odd Columns (c1+c3+c5--+c9)
df1.withColumn("MyNewColumn", booleanFindFunc(*[F.col(i) for i in df1.columns if int(i[1:])%2])).show()

+---+---+---+---+---+---+---+---+---+---+-----------+
| c1| c2| c3| c4| c5| c6| c7| c8| c9|c10|MyNewColumn|
+---+---+---+---+---+---+---+---+---+---+-----------+
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
|  1|  2|  3|  4|  5|  6|  7|  8|  9| 10|         25|
+---+---+---+---+---+---+---+---+---+---+-----------+

希望这能解决您的问题

关于pyspark - pyspark udf 的参数数量可变，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42935617/

27

4

0

文章推荐： Python Pandas 从日期创建日期时间索引

文章推荐： php - 用缺少的键填充多维数组

文章推荐：在命令行中按下 Up 的 Bash 别名

excel - 如何调用在另一个 UDF 中返回数组的 UDF？
我在弄清楚如何从另一个 UDF 返回 UDF 中的数组时遇到了一些麻烦。这里的一个是简单的指数移动平均 UDF，我试图将数组返回到另一个 UDF，但我收到 #value 错误。我觉得有一个我没有看到的
excel - 在另一个 UDF 中调用 UDF
我需要从另一个模块(在同一个工作簿中)调用以前制作的 UDF 来构建另一个 UDF。如何调用第一个函数？这适用于 Excel VBA。我已经构建了我的第一个函数，它计算产品在特定时间的账面值(val
vba - 寻求结合如何自定义 UDF 的插入函数向导和使 UDF 操作其他单元格
这个问题可能对许多 VBA 程序员有用。它涉及实现两个有用的独立任务并使它们同时工作。第一个任务是为 UDF 制作 Excel 函数工具提示。虽然似乎还没有找到明确的解决方案，但目前我对自定义插入函
scala - Spark - 将整行传递给 udf，然后在 udf 中获取列名
我正在将 Spark 与 Scala 一起使用，并希望将整行传递给 udf 并选择 udf 中的每个列名和列值。我怎样才能做到这一点？我正在尝试以下 - inputDataDF.withColumn
apache-spark - Pandas UDF 不比 Spark UDF 快吗？
这个问题在这里已经有了答案: Spark functions vs UDF performance? (3 个答案) 关闭2 年前。我从 Pyspark 网站获取了以下 UDF，因为我试图了解是否
scala - 什么是无类型 Scala UDF 和有类型 Scala UDF？它们的区别是什么？
我已经使用 Spark 2.4 一段时间了，最近几天才开始切换到 Spark 3.0。切换到 Spark 3.0 运行后出现此错误 udf((x: Int) => x, IntegerType)
sql-server - 内联表值 UDF 能否优于 SELECT 列列表中的等效标量 UDF？
这个问题源自 SQLServer: Why avoid Table-Valued User Defined Functions? 。我开始在一些评论中提出问题，而对我评论的回复却偏离了主题。这样您就
java - hive UDF : Hive does not send proper arguments to UDF
这是我的 hive 表 CREATE TABLE `dum`(`val` map>); insert into dum select map('A',array('1','2','3'),'B',ar
scala - 编写 spark UDF(而不是将 UDF 作为一个)时是否会降低性能？
我想知道编写 spark udf 是否会降低性能。一般来说，我更喜欢组合做一件事的小函数…… 这是一个简单的例子，给定一个 DataFrame df: def inc = udf( (i: Doubl
java - 无法理解 Spark 中的 UDF，尤其是 Java 中的 UDF
我正在尝试根据另一列的值在 Spark 数据集中创建一个新列。另一列的值作为键在 json 文件中搜索，返回的值是用于新列的值。这是我尝试过的代码，但它不起作用，而且我不确定 UDF 是如何工作的。
scala - 在使用该 UDF 的列上添加过滤器时，Spark Sql UDF 抛出 NullPointer
SPARK_VERSION = 2.2.0 我在尝试做 filter 时遇到了一个有趣的问题。在具有使用 UDF 添加的列的数据帧上。我能够用较小的数据集复制问题。鉴于虚拟案例类: case cla
java - Spark UDF : How to write a UDF on each row to extract a specific value in a nested struct?
我正在 Java 中使用 Spark 来处理 XML 文件。来自databricks的spark-xml包用于将xml文件读入dataframe。示例 xml 文件是: 1 joh
用于从磁盘 : MySQL keeps crashing on every second UDF call 读取文件的 MySQL UDF
我正在尝试创建一个 MySQL UDF getFile()，它应该从磁盘上的某个目录返回文本文件的内容。问题是调用一次或两次有效，但在第二次或第三次调用 UDF 时，MySQL 服务器崩溃。我无法通
sql-server - 用于 UDF 性能统计的 MS SQL DMV - 如何查找前 10 个最差的 UDF
我听说 Microsoft SQL Server 中有多种方法可以查找“最差”存储过程:按执行次数、按 CPU 工作时间、按队列等待时间等。我正在寻找一种方法来查找最差(最慢/最常用)的 UDF -
excel - Excel 的 VBA UDF 变得有值(value)!在另一个 UDF 上使用 hidden = true 之后
我已经为一个项目构建了一个包含多个公式的 Excel 工作表。然后，我添加了一个用于折叠/展开某些单元组的命令按钮。命令按钮代码是: Private Sub CommandButton1_Click
MySQL触发器在插入后检查是否没有重复然后运行sys_exec udf
MySQL版本:5.1.73数据库客户端版本:libmysql - 5.1.73 我试图检查 NEW.src 在过去一小时内是否存在，如果不存在则执行 sys_exec udf。我在 mysql 中
scala - 将元组列表作为参数传递给scala中的spark udf
我正在尝试将元组列表传递给 scala 中的 udf。我不确定如何为此准确定义数据类型。我试图将它作为一整行传递，但它无法真正解决它。我需要根据元组的第一个元素对列表进行排序，然后返回 n 个元素。我
Excel UDF 对具有特定背景颜色的单元格求和
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。此问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-topic
excel - UDF 从通用字符串中提取特定数据
我正在尝试创建一个类似 =Extractinfo("A2","Name") 的函数，它可以从原始数据中提取姓名、电话和电子邮件 ID，一个用于所有 3 次提取的函数，我已经有一个提取电子邮件 ID 的
vba - 具有无限参数的 UDF
我正在编写一个用户定义函数(UDF)，它以一些单元格作为参数。这些单元格包含相同的数据，但精度不同；该功能显示可用的最佳精度。函数的参数按精度升序编写。这是一个例子: +---+--------

首页

博学

6Ren·AI

商城

pyspark - pyspark udf 的参数数量可变