scala - 如何在 Spark RDD 中获取 Avg 和 Sum-6ren

scala - 如何在 Spark RDD 中获取 Avg 和 Sum

转载作者：行者123 更新时间：2023-12-02 21:09:06

25

4

假设我有 Spark 功能:

val group = whereRdd.map(collection => collection.getLong("location_id") -> collection.getInt("feel"))
  .groupByKey
  .map(grouped => grouped._1 -> grouped._2.toSet)

group.foreach(g => println(g))

我得到:

(639461796080961,Set(15))
(214680441881239,Set(5, 10, 25, -99, 99, 19, 100))
(203328349712668,Set(5, 10, 15, -99, 99, 15, 10))

是否可以向该函数添加一个Map()，并放置每个集合的avg和sum？例如:

(639461796080961,Map("data" -> Set(5, 10, 25, -99, 99, 19, 100), "avg" -> 22.71, "sum" -> 159))

最佳答案

我建议的一件事是使用 Tuple 或 case 类而不是 Map。我的意思大致是这样的:

case class Location(id: Long, values: Set[Int], sum: Int, avg: Double)

val group = whereRdd
  .map(collection => 
    collection.getLong("location_id") -> collection.getInt("feel"))
  .groupByKey
  .map{case (id, values) => {
    val set = values.toSet
    val sum = set.sum
    val mean = sum / set.size.toDouble
    Location(id, set, sum, mean)
  }}

相对于Map的最大优点是它保持类型的顺序。

关于scala - 如何在 Spark RDD 中获取 Avg 和 Sum，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34547015/

25

4

0

文章推荐： php - Laravel - 如何传递变量来重置密码模板？

文章推荐： batch-file - 如何仅对选定的文件执行 "dir > output.txt"

文章推荐： command-line - Fish shell 目录堆栈

文章推荐： laravel - Gulp-concat:将所有js包装在一个唯一的$(document)中

MySQL : AVG of AVG impossible?
我想做一个平均值:问题是我正在计算每个元素的 AVG 的 1 个项目(工作)但是一旦我想要类别平均值的 GLOBAL 平均值(something and foo) 它不起作用(mysql 向我抛出一个
MySQl - AVG ( AVG IF) & 分组依据
我使用 MySQL。我有以下格式的数据 - DATE , PAGE , PAGE_LOAD_DURATION , VISIT_TYPE 01-01-15 , A ,
mysql - 从按条件分组的所有记录中获取 AVG，然后获取这些平均值的 AVG
我有下表: +--------+-------+ |Username|Points | +--------+-------+ |User1 | 75.00 | |User1 | 87.50 |
MySQL AVG ... LIMIT 返回总 AVG
表格: a | b 1 | 15 2 | 10 3 | 20 4 | 30 查询: SELECT AVG(table.b) FROM table ORDER BY table.a ASC LIMIT
sql - AVG , group by, WHERE AVG greater (>) 问题
这是我的数据库 CREATE TABLE korisnici( name VARCHAR(30) NOT NULL, amount DECIMAL(65,2) ); INSER
sql - AVG , group by, WHERE AVG greater (>) 问题
这是我的数据库 CREATE TABLE korisnici( name VARCHAR(30) NOT NULL, amount DECIMAL(65,2) ); INSER
php - mySQL AVG - 一种为 AVG 合并两个结果的方法
我正在尝试获取我的指标的平均交互次数，但此查询获取的是那些进行了交互的人的平均交互次数(那些在 metricsActions 中的人只有在他们已经交互时才会存在，他们的 metricsID 仍然存在于
mysql - 将 AVG(整数) 与类别的 AVG(整数) 进行比较
我与三列有关系:ProductName、CategoryID 和 Price。我需要选择仅那些价格高于给定类别中平均产品价格的产品。(例如，当apple(ProductName)是fruit(Cate
c++, 'avg = sum/5' 给了我垃圾值，但写 avg = sum/2 给出了工作，我不知道为什么
我正在尝试使用 C++ 创建一个简单的程序。它计算用户输入的 5 个数字的平均值，但当我运行它时，它一直给我一个垃圾值。我花了 30 多分钟来解决这个问题，但我似乎无法弄清楚。 #include
mysql - YEAR(AVG(UNIX(date))) 与 ROUND(AVG(YEAR(date))) 不同
总结一个练习题: 我需要从 datetime 列查询平均年份。我最初的解决方案是YEAR(AVG())所有日期。但由于我无法 AVG() 为 datetime，因此我将日期转换为 unix，然后再转换
sql - 当每个想要的 AVG() 值使用不同的 WHERE 子句时，基本 sql : selecting AVG() values from the same column multiple times in one query,
我想从一个表中的一列 (value_to_count) 获得三个不同的平均值，其中所有这些平均值都有不同的 WHERE 子句(根据时间)。示例数据: ###services#### Table se
sql - 如何构建一个 sql 查询以返回 avg(price)、min(price)、max(price) 与 avg(order)、min(order)、max(order)
我想创建一个 sql 查询，为 2 个不同的查询一起返回结果。例如，我想要以下形式的结果:产品名称, avg(price), min(price), max(price), avg(order), m
多个内部连接的mysql avg
我有以下查询: SELECT ROUND(AVG( p.price ),2) as Avg_value FROM quotes inner join `system_users` ON quotes.
SQL AVG() 函数返回不正确的值
我想在 sql 中使用 AVG 函数来返回某些值的工作平均值(即基于上周而不是整体平均值)。我有两个正在计算的值，体重和 restingHR(心率)。我对每个都有以下 sql 语句: SELECT A
sql - SQL中的嵌套聚合函数Max(Avg())
It's difficult to tell what is being asked here. This question is ambiguous, vague, incomplete, over
Rethinkdb 在一个查询中执行多个 avg
我有一个包含多个数字列的评论表。我想计算一个查询中所有列的平均值。如果表格看起来像这样: { foo : 2, bar : 5, foobar : 10 }, { foo :
azure 什么是最大时间聚合或 AVG
我正在为我的应用程序使用 SQL Azure SQL Server。我的应用程序直到最近都运行良好，MAX dtu 使用率为 100%，但 AVG DTU 使用率约为 50%。我应该监控哪个值来扩展
azure 什么是最大时间聚合或 AVG
我正在为我的应用程序使用 SQL Azure SQL Server。我的应用程序直到最近都运行良好，MAX dtu 使用率为 100%，但 AVG DTU 使用率约为 50%。我应该监控哪个值来扩展
java - $avg 未返回平均值
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
SQL - AVG 和分组依据
我有下表: Date | Product | Price 06-12-17 | 1.1 | 10 06-12-17 | 1.2 | 2

首页

博学

6Ren·AI

商城

scala - 如何在 Spark RDD 中获取 Avg 和 Sum