- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 spark 数据框,我想使用 foldLeft
(或任何其他方法)将聚合函数应用于每一列。应用于列的聚合函数将取决于列的数据类型。
请注意,由于我将使用大型数据框,因此我不想使用 .collect()
或任何将大量内容写入驱动程序的东西。
初始数据框如下所示:
+----------------+-----------------+------------------+
| id(StringType) | lat(DoubleType) | long(DoubleType) |
+----------------+-----------------+------------------+
| ID1 | 10.2 | 20.1 |
| ID2 | 11.1 | 50.1 |
| ID3 | null | null |
+----------------+-----------------+------------------+
对于此示例,我想计算所有数据类型的空值计数,只计算 DoubleType
的平均值,并且只计算 StringType
列的基数。
这是我实现 foldLeft
的框架代码,但它可能不是正确的方法。
def ourMethod(df: DataFrame): DataFrame = {
val columns = df.schema.fields
val initDf = spark.emptyDataFrame
columns.foldLeft(...)((tempDf, column) => {
column match {
case StructField(name, dataType, _, _) => {
dataType match {
case StringType => ... //something like df.select("column").approx_count_distinct(), though writes in driver.
case DoubleType => ... //something like df.agg(avg(column))
}
}
}
})
}
预期的输出如下所示:
+----------+---------+-------+-------------+
| col_name | is_null | mean | cardinality |
+----------+---------+-------+-------------+
| id | 0 | null | 3 |
| lat | 1 | 10.65 | null |
| long | 1 | 35.1 | null |
+----------+---------+-------+-------------+
最佳答案
不确定 foldLeft
在这里是否有帮助,但它绝对可行。给定数据框
val df =
Seq(("ID1", Some(10.2), Some(20.1)),
("ID2", Some(11.1), Some(50.1)),
("ID3", None, None))
.toDF("id", "lat", "lon")
我们可以采取几种方法。
val aggs = df.schema.fields.flatMap {
case StructField(name, DoubleType, _, _) =>
Seq(max(col(name).isNull) as s"${name}_is_null",
mean(col(name)) as s"${name}_mean")
case StructField(name, StringType, _, _) =>
Seq(max(col(name).isNull) as s"${name}_is_null",
max(length(col(name))) as s"${name}_cardinality")
}
df.agg(aggs.head, aggs.tail: _*).show()
但是,输出将在一行中而不是所要求的。当然,这一行可以是例如收集到驱动程序并修改或平面映射到所需的格式。这是未处理的输出:
+----------+--------------+-----------+------------------+-----------+--------+
|id_is_null|id_cardinality|lat_is_null| lat_mean|lon_is_null|lon_mean|
+----------+--------------+-----------+------------------+-----------+--------+
| false| 3| true|10.649999999999999| true| 35.1|
+----------+--------------+-----------+------------------+-----------+--------+
null
值case class FlatRow(name: String, d: Option[Double], s: Option[String])
df.flatMap { row: Row =>
row.schema.fields.zipWithIndex.map {
case (StructField(name, DoubleType, _, _), index) =>
FlatRow(name,
if (row.isNullAt(index)) None
else Some(row.getDouble(index)),
None)
case (StructField(name, StringType, _, _), index) =>
FlatRow(name,
None,
if (row.isNullAt(index)) None
else Some(row.getString(index)))
}
}
.groupBy($"name")
.agg(max($"d".isNull && $"s".isNull) as "is_null",
mean($"d") as "mean",
max(length($"s")) as "cardinality")
.show()
多一点代码,但它输出要求的格式:
+----+-------+------------------+-----------+
|name|is_null| mean|cardinality|
+----+-------+------------------+-----------+
| lat| true|10.649999999999999| null|
| lon| true| 35.1| null|
| id| false| null| 3|
+----+-------+------------------+-----------+
关于scala - 在现有数据框上使用 foldLeft 输出数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55789193/
我有一个如下图所示的情节。对于这个情节,我想在情节(右下角或左下角)的某处添加类似的线图。我正在使用的子图的命令是 plot( 1:121, sample(1:121),type='l' ) 它绘制在
我有一个单表数据库,我继承并迁移到 SQL Server,然后通过创建、链接和填充一大堆表示主表中项目的查找类型表来规范化它。我现在想用它们的外键替换原始表中的那些项目。我是不是一直在写一堆查询或 U
我有一个 Web 应用程序,它当前正在从服务器获取 PDF 的 base64 表示。我可以使用 Mozilla 的 pdf.js 在 上显示它并使用下拉菜单切换页面。 根据我所能找到的一切和Can
在 DB2 上运行的 Moodle 2 安装中,删除用户不成功,返回从数据库读取错误: Debug info: [IBM][CLI Driver][DB2/LINUXX8664] SQL0206N "
我在grails项目的RH包中添加了一个名为Authorization的新域类。 然后,我从grails菜单自动生成了 Controller 和 View 。 但是当我尝试输入 Controller
今天,我发现了一个有趣的plunker,经过谷歌大量搜索后一无所获,希望我能在这里找到答案。我只是想要那个笨蛋的副本。我不想使用复制和粘贴技术。有什么方法可以获取已建立的 plunk 的副本吗?我如何
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: Migrate normal sqlite3 database to core data? 是否可以将现有的 sql
我正在尝试在我的应用程序上添加启动画面。我干净地构建了程序,但我选择了错误的文件。现在我第二次编辑了 VM 选项并再次干净构建,现在我收到此错误: C:\Users\User\Documents\Ne
我已经查看了很多问题,我不相信这是重复使用单元格的结果,因为新的单元格图像是正确的,但是现有的单元格图像不正确并且曾经是正确的。我会先发布图片,以便更容易理解问题。 我有一个图像单元的 Collect
我在来自 Vaadin 的 ContainerHierarchicalWrapper 的这段代码中有一个非常奇怪的错误: for (Object object : children.keySet())
到目前为止,我正在使用 Globalize用于我的 JavaScript 应用程序的 i18n 和 l10n(使用 jQuery UI 构建)。这行得通,但它将我的代码与另一个特定的库联系在一起。现在
我正在创建一个 JHipster 应用程序,现在确定了 full text search 的必要性.我知道 JHipster 与 Elasticseach 集成,但我在创建项目时没有启用它。有没有一种
我一直在寻找堆栈中的建议,但我仍然不能 100% 确定改进它的最佳方法。我有一个存储大约 130K 条记录的 mysql INNODB“产品”表。杂项产品数据等大约有 80 个字段,然后我们一直在为每
我在一本书上看到,它说:当我们使用另一个初始化新创建的对象时 - 使用复制构造函数创建一个临时对象,然后使用赋值运算符将值复制到新对象! 后来在书中我读到:当使用另一个对象初始化新对象时,编译器创建一
我第一次安装现有的 Django 项目时遇到了启动服务器 python manage.py runserver 的问题 这是我做的 1.克隆仓库, 2.制作虚拟环境 3.pip安装要求.txt 4.生
我有一个网站,还有一个登录表单。我不想使用 PHP 来检查我的 MySQL 数据库,因此我正在寻找一种方法来检查用户凭据以查看是否已有 Linux 用户。我知道 PAM,但我还没有找到任何有关如何从网
我有一个现有的 Umbraco 项目在 IIS 服务器上运行。当我开始这个项目时,我基本上是将 Umbraco 直接安装到服务器上,并通过管理界面进行编码,直到网站启动并上线。 现在,客户想要一些更改
我是 Android 开发新手,目前正在学习一些教程。当我在 Eclipse 中设置一个新的 Android 项目,并选择 Windows -> Android SDK and AVD Manager
我有这个注册页面可以正常工作,但对于电子邮件字段,我需要确保电子邮件正确有效1:正确2 : 有效 为了正确添加电子邮件,我正在使用 Java 脚本验证来维护abc@def.com 很好用 但我的问题是
首先让我说我不熟悉 COM 引用,并且我在 Windows 7 64 位计算机上使用 VS2010。今天早上,我从 TFS 中删除了一个现有项目。然后我尝试构建项目并收到此错误: The type o
我是一名优秀的程序员,十分优秀!