- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
collectio-6ren">
假设我有 Spark
功能:
val group = whereRdd.map(collection => collection.getLong("location_id") -> collection.getInt("feel"))
.groupByKey
.map(grouped => grouped._1 -> grouped._2.toSet)
group.foreach(g => println(g))
我得到:
(639461796080961,Set(15))
(214680441881239,Set(5, 10, 25, -99, 99, 19, 100))
(203328349712668,Set(5, 10, 15, -99, 99, 15, 10))
是否可以向该函数添加一个Map()
,并放置每个集合的avg
和sum
?例如:
(639461796080961,Map("data" -> Set(5, 10, 25, -99, 99, 19, 100), "avg" -> 22.71, "sum" -> 159))
最佳答案
我建议的一件事是使用 Tuple
或 case 类而不是 Map
。我的意思大致是这样的:
case class Location(id: Long, values: Set[Int], sum: Int, avg: Double)
val group = whereRdd
.map(collection =>
collection.getLong("location_id") -> collection.getInt("feel"))
.groupByKey
.map{case (id, values) => {
val set = values.toSet
val sum = set.sum
val mean = sum / set.size.toDouble
Location(id, set, sum, mean)
}}
相对于Map
的最大优点是它保持类型的顺序。
关于scala - 如何在 Spark RDD 中获取 Avg 和 Sum,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34547015/
我想做一个平均值:问题是我正在计算每个元素的 AVG 的 1 个项目(工作)但是一旦我想要类别平均值的 GLOBAL 平均值(something and foo) 它不起作用(mysql 向我抛出一个
我使用 MySQL。我有以下格式的数据 - DATE , PAGE , PAGE_LOAD_DURATION , VISIT_TYPE 01-01-15 , A ,
我有下表: +--------+-------+ |Username|Points | +--------+-------+ |User1 | 75.00 | |User1 | 87.50 |
表格: a | b 1 | 15 2 | 10 3 | 20 4 | 30 查询: SELECT AVG(table.b) FROM table ORDER BY table.a ASC LIMIT
这是我的数据库 CREATE TABLE korisnici( name VARCHAR(30) NOT NULL, amount DECIMAL(65,2) ); INSER
这是我的数据库 CREATE TABLE korisnici( name VARCHAR(30) NOT NULL, amount DECIMAL(65,2) ); INSER
我正在尝试获取我的指标的平均交互次数,但此查询获取的是那些进行了交互的人的平均交互次数(那些在 metricsActions 中的人只有在他们已经交互时才会存在,他们的 metricsID 仍然存在于
我与三列有关系:ProductName、CategoryID 和 Price。我需要选择仅那些价格高于给定类别中平均产品价格的产品。(例如,当apple(ProductName)是fruit(Cate
我正在尝试使用 C++ 创建一个简单的程序。它计算用户输入的 5 个数字的平均值,但当我运行它时,它一直给我一个垃圾值。我花了 30 多分钟来解决这个问题,但我似乎无法弄清楚。 #include
总结一个练习题: 我需要从 datetime 列查询平均年份。我最初的解决方案是YEAR(AVG())所有日期。但由于我无法 AVG() 为 datetime,因此我将日期转换为 unix,然后再转换
我想从一个表中的一列 (value_to_count) 获得三个不同的平均值,其中所有这些平均值都有不同的 WHERE 子句(根据时间)。 示例数据: ###services#### Table se
我想创建一个 sql 查询,为 2 个不同的查询一起返回结果。例如,我想要以下形式的结果:产品名称, avg(price), min(price), max(price), avg(order), m
我有以下查询: SELECT ROUND(AVG( p.price ),2) as Avg_value FROM quotes inner join `system_users` ON quotes.
我想在 sql 中使用 AVG 函数来返回某些值的工作平均值(即基于上周而不是整体平均值)。我有两个正在计算的值,体重和 restingHR(心率)。我对每个都有以下 sql 语句: SELECT A
It's difficult to tell what is being asked here. This question is ambiguous, vague, incomplete, over
我有一个包含多个数字列的评论表。我想计算一个查询中所有列的平均值。 如果表格看起来像这样: { foo : 2, bar : 5, foobar : 10 }, { foo :
我正在为我的应用程序使用 SQL Azure SQL Server。我的应用程序直到最近都运行良好,MAX dtu 使用率为 100%,但 AVG DTU 使用率约为 50%。 我应该监控哪个值来扩展
我正在为我的应用程序使用 SQL Azure SQL Server。我的应用程序直到最近都运行良好,MAX dtu 使用率为 100%,但 AVG DTU 使用率约为 50%。 我应该监控哪个值来扩展
这个问题不太可能对任何 future 的访客有帮助;它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用,visit the
我有下表: Date | Product | Price 06-12-17 | 1.1 | 10 06-12-17 | 1.2 | 2
我是一名优秀的程序员,十分优秀!