python - 将 PySpark DataFrame 列中的负值替换为零的最有效方法是什么？-6ren

python - 将 PySpark DataFrame 列中的负值替换为零的最有效方法是什么？

转载作者：太空宇宙更新时间：2023-11-03 20:11:05

24

4

我的目标是将 PySpark.DataFrame 列中的所有负元素替换为零。

输入数据

+------+
| col1 |
+------+
|  -2  |
|   1  |
|   3  |
|   0  |
|   2  |
|  -7  |
|  -14 |
|   3  |
+------+

所需的输出数据

+------+
| col1 |
+------+
|   0  |
|   1  |
|   3  |
|   0  |
|   2  |
|   0  |
|   0  |
|   3  |
+------+

基本上我可以这样做:

df = df.withColumn('col1', F.when(F.col('col1') < 0, 0).otherwise(F.col('col1'))

或者udf可以定义为

import pyspark.sql.functions as F
smooth = F.udf(lambda x: x if x > 0 else 0, IntegerType())
df = df.withColumn('col1', smooth(F.col('col1')))

或

df = df.withColumn('col1', (F.col('col1') + F.abs('col1')) / 2)

或

df = df.withColumn('col1', F.greatest(F.col('col1'), F.lit(0))

我的问题是，哪一种是最有效的方法？ Udf 存在优化问题，因此这绝对不是正确的方法。但我不知道如何比较其他两种情况。一个答案绝对应该是进行实验并比较平均运行时间等等。但我想从理论上比较这些方法(和新方法)。

提前致谢...

最佳答案

您可以简单地创建一个列，在其中输入 if x > 0: x else 0 。这将是最好的方法。

这个问题理论上已经得到解决:Spark functions vs UDF performance?

import pyspark.sql.functions as F

df = df.withColumn("only_positive", F.when(F.col("col1") > 0, F.col("col1")).otherwise(0))

您可以覆盖col1在原始数据框中，如果将其传递给 withColumn()

关于python - 将 PySpark DataFrame 列中的负值替换为零的最有效方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58713478/

24

4

0

文章推荐： matlab - 为我的图形创建一个圆形 mask

文章推荐： javascript - JQuery CSS 两个值

文章推荐： matlab - 如何使用 MATLAB 将图像分割成多个部分

文章推荐： javascript - Font Awesome 图标没有显示？

.net - flagsattribute - 负值？
我有一个带有标志属性的枚举，我用它来表示权限。我用它来比较 if (CurrentPermissions & Permission1 == Permission1) 等... [FlagsAttrib
MySQL TIMEDIFF 负值
我在使用具有两个不同日期的 TIMEDIFF 时遇到问题。以下查询“应该”返回00:04:51 mysql> SELECT TIMEDIFF(TIME('2013-07-21 00:04:50'),T
javascript - 拉斐尔的不透明度超出范围(负值)
我有一个页面抛出 JavaScript 异常: Unhandled exception at line 5144, column 13 in raphael.js0x80048270 - JavaSc
java - BigInteger 负值
我有一个大整数，比如说 BigInteger a=Biginteger.valueOf(50); 除此之外 BigInteger a=(BigInteger.ZERO).subtract(BigInt
iphone - CoreLocation 负值
我正在使用 CoreLocation 框架获取我的速度和距离来计算平均速度。在 CoreLocation 发出的第一个更新中，它显示了速度和行进距离的负值。我该如何解决这个问题？速度是 locat
python - Pandas - 比较正值/负值
我有一个数据框“df”: x y 0 1 -1 1 -2 -3 2 3 4 3 4 5 4 9 6 我正在尝试确定 x 和 y 值的百分比是正数还是负数。所
Java 格式化、负值、零填充
引用自:http://docs.oracle.com/javase/1.5.0/docs/api/java/util/Formatter.html 'd' '\u0054' Formats the a
c - ASCII 表 - 负值
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Negative ASCII value int main() { char b = 8-'3';
azure - 负值 Azure ServiceBus 事件消息计数
发现了一个令人费解的指标——事件消息计数为负值。我已确认 ServiceBus Explorer (v3.0.4) 和 Azure 门户报告相同的负值。怎么会发生这种事？我为 SB 队列启用了以下
c - 编译时 libcurl 错误(负值)
我正在尝试编译一个很大程度上依赖于 libcurl 和 pcap 的自定义包，在我的机器上它工作得很好，但是当我尝试使用工具链编译它时，我收到此错误: $ /home/kavastudios/site
PHP MySQL 负值(余额)问题
我正在开发一个桌面软件，它向用户每次执行主要操作收费。例如，每个 PDF 打印将向用户收取 0.1 美元的费用。我的软件提供多线程。 . 所以，如果它运行单线程，它就可以正常工作:) 但问题是如果用
mysql - 选择计算 SQL 的正值/负值
我有一个用户模型和一个工作场所模型。用户有一个字段性别(男/女)，每个工作场所有很多用户。我想要选择工作场所的用户总数以及按工作场所名称分组的工作场所的女性用户总数。这是我尝试过的。 User.se
javascript - D3 条形图 - 如何一起显示正值/负值？
我正在尝试在 D3 中创建一个复制 this design 的条形图.这个想法是值的范围可以从 -100 到 100 并且彼此并排显示。比例必须保持在 0-100，并使用颜色来指示数字是高于还是低于
c++ - stringstream 在无符号类型中失败 "streaming"负值？
我在使用 gcc4.4 的 Ubuntu 10.04 中遇到同样的问题，相同的代码有效使用 gcc4.1 在 RH 5.5 上很好 #include #include int main(int a
C size_t 和 ssize_t 负值
size_t 被声明为 unsigned int 所以它不能表示负值。所以有 ssize_t 这是signed 类型的 size_t 对吗？这是我的问题: #include #include
r - 使用新创建的列中的值确定 x 列是否具有正值/负值/不同值
我正在尝试确定 x 列对于这些列中的值是否具有相同的方向(正或负)或者它们是否具有不同的方向(例如，一个为正，另一个为负)。我目前正在使用 with确定列中的值是否为 > 0 , 0 & coun
sql - 驱动程序将 uint64 参数转换为 int32 负值
我的 Firebird 过程采用了几个具有 bigint 值的参数。当我从 uint64 类型的 go 程序参数调用此过程时，值大于 max int32/2 存储为负数。如何将 bigint/ui
C++:将 uint32 设置为 int32(负值)
我正在考虑是否可以消除编译器警告。警告来自将 uint32 与 -1 进行比较。现在只看一眼，这似乎是一件不明智的事情，因为 uint32 永远不应该为负，但我没有编写这段代码，也不熟悉 c++ 的
python - Pandas 数据框中列的输出从 float 到货币(负值)
我有以下数据框(由负数和正数组成): df.head() Out[39]: Prices 0 -445.0 1 -2058.0 2 -954.0 3 -520.0 4 -73
c# - WPF Metro UI 图表 - 负值
我正在尝试使用库WPF Metro UI Charts，它派生自Modern UI Charts。但是，当我尝试在 Page 而不是 Window 中使用图表时，我遇到了 ClusteredColum

首页

博学

6Ren·AI

商城

python - 将 PySpark DataFrame 列中的负值替换为零的最有效方法是什么？