python - 将多列与另一列进行比较时，选择立即较小/较大的值-6ren

python - 将多列与另一列进行比较时，选择立即较小/较大的值

转载作者：行者123 更新时间：2023-12-01 23:33:58

25

4

我有可变数量的列，假设在这个例子中，我们有 4 列(textX)与具有不同值的单个列(id)进行比较):

d =     [
  {'id':  500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000}, 
  {'id': 1500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000},
  {'id': 2500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000},
  {'id': 3500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000},
  {'id': 4500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000},
  {'id': 5500, 'text1': 1000 ,'text2': 2000 ,'text3': 3000, 'text4': 5000}
] 
data = spark.createDataFrame(d)

我想根据“id”的值对 textX 列中的最小值和较大值进行操作。例如，对于 id value = 2500，我想对值 2000 和 3000 进行操作。对于值 500 的“id”，它将是 null 和 1000。我试图将这些作为附加列，例如以获得较低的列值

df_cols = data.columns
thresh_list = [x for x in df_cols if x.startswith('text')]

data.withColumn('inic_th', (col(x) for x in thresh_list if col('id') > col(x)))

但是报错:

col should be Column

我猜这是因为有多个列符合条件但无法在此处插入。

有没有人有任何解决方案来根据第三列将操作转换为 2 个值，或者如何正确获得这些边界？实际上，textX 列的数量会有所不同。由于性能问题，我正在尽可能远离 Pandas 和 UDF。

最佳答案

您可以使用least 和greatest 来获取相关列:

import pyspark.sql.functions as F

df = data.withColumn(
    'col1',
    F.greatest(*[
        F.when(F.col(c) < F.col('id'), F.col(c))
        for c in data.columns
    ])
).withColumn(
    'col2',
    F.least(*[
        F.when(F.col(c) > F.col('id'), F.col(c))
        for c in data.columns
    ])
)

df.show()
+----+-----+-----+-----+-----+----+----+
|  id|text1|text2|text3|text4|col1|col2|
+----+-----+-----+-----+-----+----+----+
| 500| 1000| 2000| 3000| 5000|null|1000|
|1500| 1000| 2000| 3000| 5000|1000|2000|
|2500| 1000| 2000| 3000| 5000|2000|3000|
|3500| 1000| 2000| 3000| 5000|3000|5000|
|4500| 1000| 2000| 3000| 5000|3000|5000|
|5500| 1000| 2000| 3000| 5000|5000|null|
+----+-----+-----+-----+-----+----+----+

然后就可以对col1和col2进行操作了。

关于python - 将多列与另一列进行比较时，选择立即较小/较大的值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65879361/

25

4

0

文章推荐： python pandas 在最后一个非 NaN 值处停止 fillna

hadoop - 将配置单元表标记为已复制/较小
是否可以告诉hive某个表“很小”，即应将其复制到所有节点并在RAM中进行操作？最佳答案尝试以下提示: /*+ MAPJOIN(small_table) */ UPDATE 顺便说一句，还有其他
即使 block 较小，Javascript 数组性能也会崩溃
给定的是一个大(但不是巨大)的字符串数组(数量为 1000-5000 个单个字符串)。我想对这些字符串执行一些计算和其他操作。因为在处理那个大数组时它总是停止工作，所以我重写了我的函数以递归地获取较小
java - JFrame 中默认的 JPanel 较小
当我在大小为 (640,480) 的 JFrame 中添加 JPanel 时，JPanel 的大小为 (638449)。我需要 JPanel 与 JFrame 完全匹配! 我发现的一个临时解决方法是将
html - 如果 parent 较小，如何使图像居中？
我目前正在尝试响应设计。我需要在父 div 变小的同时保持图像居中。见图片说明: 我不想用它作为背景。下面的代码会一直把它放在div框的左上角 #img_wrap {
python - 在生成器中捕获异常时保持 try block 较小
当我必须捕获生成器中可能发生的异常时，如何使 try block 尽可能小？典型的情况是这样的: for i in g(): process(i) 如果 g() 可以引发我需要捕获的异常，第一种
html - 全部关闭时，Bootstrap Accordion header 较小
目前尝试让 Accordion 项目在 Bootstrap 中工作一切都很好，直到我尝试关闭所有 Accordion 菜单。突然之间，标题比未折叠时小得多。当一个打开时当全部关闭时我正在使用指南
html - 全部关闭时，Bootstrap Accordion header 较小
目前尝试让 Accordion 项目在 Bootstrap 中工作一切都很好，直到我尝试关闭所有 Accordion 菜单。突然之间，标题比未折叠时小得多。当一个打开时当全部关闭时我正在使用指南
java - 每个应用程序一个(较大)线程池与每个应用程序组件多个(较小)线程池
一个应用程序托管一个具有三个接口(interface)的 Web 服务，用于三个单独且独立的操作，所有这些操作都在应用程序的不同组件中实现，彼此独立，例如在不同的包等中，所以他们对彼此了解不多，只共享
html - 较小 z-index 元素的圆 Angular
我正在尝试使用 border-radius 属性设计一个主要内容容器具有圆 Angular 的网站。但是，我保持侧边栏和顶部导航栏固定，因此当用户向上或向下滚动时它们不会移动。它类似于在 Google
html - 如果容器 div 较小，则按比例缩小 float div
我正在构建我网站的响应式版本。虽然我很高兴大多数 float 的 div 被迫在屏幕下方，但有一些 div 我需要保持彼此相邻，即使屏幕区域小于这些 div 的总宽度。在这种情况下，我想按比例缩小它
html - 如果 child 较小，则继承父宽度 - child 定位绝对
我正在为我的元素使用 Twitter Bootstraps 网格。我有以下 HTML: Some text Some text
css - 较小 div 内表格的 HTML/CSS 自动宽度，溢出可见
我有一个小宽度的 div 并且可以看到溢出。我有一个更大的表，里面只有一个单元格和一个文本: A small text with spaces...
c# - 如何在 ASP.NET MVC 中保持 Controller 较小？
我有一个设计得很好的架构，其中 Controller 转到访问与数据库通信的存储库的服务。因此， Controller 中的逻辑保持在最低限度，但我仍然有非常微妙的代码片段来执行一些任务，例如验证
android - MATCH_PARENT 如果兄弟 View 较大，WRAP_CONTENT 如果兄弟 View 较小
我在一个布局中有两个 View 。我将分别称它们为 View A 和 View B。 ┌──────┐ │┌─┐┌─┐│ ││A││B││ │└─┘└─┘│ └──────┘ 父布局(包括View A
css - 如果容器 div 较小，如何将子 div 扩展到 100% 屏幕宽度？
整个页面的父元素是一个居中的 div，最大宽度限制为 960px。页面上的所有其他元素都是该父 div 的子元素。简化结构如下: 虽然父 div 的宽度不应超过 960px，但我
jquery - 托管定制(较小)jQuery UI 与从 CDN 进行全尺寸(大)下载的链接？
我应该链接到完整的 jQuery UI -还是-提供精简的自定义副本？来自 Google 等 CDN 的完整 jQuery-UI 与提供定制的最小版本之间存在非常显着的大小差异。此外，还可以将 jQ
jquery - mouseMove 上的水平滚动 - 较小 div 中的宽 div 并溢出 :hidden (Can't get the math to work)
我正在尝试制作一条图像拇指的“线”，它在鼠标移动时滚动。我让它工作了，但我现在的问题是我想在侧面做一个“填充”，这样我就不必将鼠标一直拉到侧面才能看到第一个/最后一个拇指。但我真的无法让它工作:/ 这

首页

博学

6Ren·AI

商城

python - 将多列与另一列进行比较时，选择立即较小/较大的值