apache-spark - 如何选择所有列而不是硬编码每一列？-6ren

apache-spark - 如何选择所有列而不是硬编码每一列？

转载作者：行者123 更新时间：2023-12-02 06:51:42

25

4

PySpark Dataframe 采用以下格式:

要访问列 c1,c2,c3 的 stddev 行，我使用:

df.describe().createOrReplaceTempView("table1")

df2 = sqlContext.sql("SELECT c1 AS f1, c2 as f2, c3 as f3 from table1")
ddd = df2.rdd.map(lambda x : (float(x.f1) , float(x.f2) , float(x.f3))).zipWithIndex().filter(lambda x: x[1] == 2).map(lambda x : x[0])
print type(ddd)
print type(ddd.collect())
print ddd.collect()

这打印:

<class 'pyspark.rdd.PipelinedRDD'>
<type 'list'>
[(0.7071067811865476, 0.7071067811865476, 0.7071067811865476)]

如何为所有列选择 stddev 值:c1,c2,c3,c4,c5 并为这些选择生成数据类型 [(0.7071067811865476, 0.7071067811865476, 0.7071067811865476.... 而不是将每个值硬编码到 SQL 字符串中？所以列数可以是可变的:5、10 列等...

要为 5 列完成此操作，我认为使用 "SELECT c1 AS f1, c2 as f2, c3 as f3, c4 as f4, c5 as f5 from table1" 但是否有更简洁的方法，而不是在 SQL 中对每个值进行硬编码，然后在生成 rdd 时相应地对值进行硬编码: df2.rdd.map(lambda x : (float(x.f1) , float(x.f2).....
因为我的解决方案不适用于不同长度的列。

最佳答案

为什么不直接使用 SQL 聚合？要么使用 agg

from pyspark.sql.functions import stddev

df.agg(*[stddev(c) for c in df.columns]).first()

其中 * 用于 agg(*exprs) 或 select 的参数解包:

df.select([stddev(c) for c in df.columns]).first()

要删除名称，请将 Row 转换为纯 tuple :

tuple(df.select(...).first())

或者

df.select(...).rdd.map(tuple).first()

关于apache-spark - 如何选择所有列而不是硬编码每一列？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42380748/

25

4

0

文章推荐： c - 转到 VLA 范围

文章推荐： azure - 更改文件名从 Azure 下载

文章推荐： wpf - Azure Clickonce 发布

文章推荐： sql-server - Azure SQL 连接超时

编解码持续升级，「硬」实力铸就视频云最优解
算力时代，视频云需要怎样的 CPU？在数据爆发式增长及算法日益精进的大背景下，属于「算力」的时代俨然到来。随着视频成为互联网流量的主角，日趋饱和的音视频场景渗透率、人类对“感官之限”的追
math - 硬 Sigmoid 是如何定义的
我正在使用 keras 开发深度网络。有一个激活“硬 sigmoid”。它的数学定义是什么？我知道什么是 Sigmoid。有人在Quora上问了类似的问题:https://www.quora.com
php - 硬 SQL 查询
我有一个不寻常的 SQL 问题，我不太确定如何最好地解释，所以请耐心等待。我有三张表，一张是志愿者组织的表，一张是用户的表，一张是用户详细信息的表。 #Table 1# ## Name Preside
javascript - 谷歌网络字体加载器崩溃 ie - 硬
我正在尝试使用名为 bigText 的 jquery 插件。一个很棒的用于创建 block 头的插件。如果您想将其与自定义字体一起使用，它会声明您需要 google webfont loader，这样
sql - 硬 tsql 问题 - 有多少行值是按顺序排列的
假设我有一张 table date,personid 1/1/2001 1 1/2/2001 3 1/3/2001 2 1/4/2001 2 1/5/2001 5 1/6/2001 5 1/7/200
mysql - 硬 SQL 查询 - 在另一个表中没有匹配的行或具有未在另一个表中发布的项目
下面是我要执行的 SQL。我想避免为此执行多个请求，我很确定这是可能的…… First table : products_categories (category_id, category_infos
android - 撤消git命令 - 在android studio中重置磁头(硬)
我在 android studio 中重新设置了一些提交，并选择了硬重置类型。我失去了一个星期的工作。是否有希望撤销此操作？我正在使用 android studio，它有内置的 GUI 选项来执行所有
c - 硬 float 和软 float 有什么区别？
当我使用我的交叉工具链编译 C 代码时，链接器会打印出警告页面，说明我的可执行文件使用了硬 float ，但我的 libc 使用了软 float 。有什么区别？最佳答案硬浮点使用片上浮点单元。软
linux - aarch64 Linux 硬 float 或软 float
linux系统有arm64，arm架构armv8-a。如何知道 debian 是运行硬浮点还是软浮点？最佳答案符合 AAPCS64, GNU GCC for armv8 仅提供硬浮点 aarch6
c - 如何从 Cortex-M3 硬/使用/总线故障中恢复？
我正在开发 cortex-m3 的微内核。我创建了一个故意导致错误的小型测试应用程序。现在我不确定如何从故障中返回。我知道堆栈可能需要使用不同函数的地址进行更新。我也知道在某些情况下从错误返回可能是
bash - ulimit 硬(-H)和软(-S)的含义
硬/软限制是什么意思？核心文件大小的差异例如: ulimit -Sc 1024 与 ulimit -Hc 1024 我通常在运行二进制文件之前将脚本放入 ulimit -c unlimited。
java - 加载 MSCAPI Java keystore 而不加载私钥(硬 token )
我想在 Java 中加载一个 MSCAPI keystore 并检查 MY 存储中的可用证书。但是，这些证书的一些 key 驻留在硬件 token 上，并且弹出窗口会在加载期间询问 token 。有
php - 硬 PHP 螺母 : how to insert items into one associate array?
是的，这是一个有点棘手的问题；一个数组(没有副本)，而不是任何奇数数组。让我解释一下，让我们从这里开始； $a = array ( 'one' => 1, 'two' => 2, 'three' =
architecture - ARM v7 平台上的 ARM v5 共享库 (ftd2xx) - 硬 float 与软 float 问题
我需要在运行 Ubuntu 12.04 的 BeagleBoard xM rev C 上运行一个使用 ftd2xx 的程序。我正在尝试使用提供的 ARM 库 libftd2xx.so here . l

首页

博学

6Ren·AI

商城

apache-spark - 如何选择所有列而不是硬编码每一列？