scala - 如何计算由 Spark 中的 (Key, [Value]) 对组成的 RDD 中每对的平均值？-6ren

scala - 如何计算由 Spark 中的 (Key, [Value]) 对组成的 RDD 中每对的平均值？

转载作者：行者123 更新时间：2023-12-04 18:38:23

24

4

我对 Scala 和 Spark 都很陌生，所以如果我完全错误地解决了这个问题，请原谅我。导入一个csv文件，过滤，映射后；我有一个 RDD，它是一堆 (String, Double) 对。

(b2aff711,-0.00510)
(ae095138,0.20321)
(etc.)

当我在 RDD 上使用 .groupByKey() 时，

val grouped = rdd1.groupByKey()

获得带有一堆 (String, [Double]) 对的 RDD。 (我不知道 CompactBuffer 是什么意思，也许会导致我的问题？)

(32540b03,CompactBuffer(-0.00699, 0.256023))
(a93dec11,CompactBuffer(0.00624))
(32cc6532,CompactBuffer(0.02337, -0.05223, -0.03591))
(etc.)

一旦它们被分组，我就会尝试取平均值和标准偏差。我想简单地使用 .mean() 和 .sampleStdev()。当我尝试创建一个新的 RDD 方法时，

val mean = grouped.mean()

返回错误

Error:(51, 22) value mean is not a member of org.apache.spark.rdd.RDD[(String, Iterable[Double])]

val mean = grouped.mean( )

我已经导入了 org.apache.spark.SparkContext._
我还尝试使用 sampleStdev( )、.sum( )、.stats( ) 获得相同的结果。不管是什么问题，它似乎都影响了所有的数字 RDD 操作。

最佳答案

让我们考虑以下几点:

val data = List(("32540b03",-0.00699), ("a93dec11",0.00624),
                ("32cc6532",0.02337) , ("32540b03",0.256023),
                ("32cc6532",-0.03591),("32cc6532",-0.03591))

val rdd = sc.parallelize(data.toSeq).groupByKey().sortByKey()

计算每对均值的一种方法如下:

您需要定义一个平均方法:

def average[T]( ts: Iterable[T] )( implicit num: Numeric[T] ) = {
   num.toDouble( ts.sum ) / ts.size
}

您可以在 rdd 上应用您的方法，如下所示:

val avgs = rdd.map(x => (x._1, average(x._2)))

您可以检查:

avgs.take(3)

这是结果:

res4: Array[(String, Double)] = Array((32540b03,0.1245165), (32cc6532,-0.016149999999999998), (a93dec11,0.00624))

关于scala - 如何计算由 Spark 中的 (Key, [Value]) 对组成的 RDD 中每对的平均值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30920057/

24

4

0

文章推荐： typescript1.8 - 如何将 typescript 数字转换为十六进制？

文章推荐： unix - tload 中的值是什么意思？

文章推荐： ubuntu - 用于重置 Evolution 密码的 shell 脚本

文章推荐： ios - Sprite Kit 应用程序中的内存泄漏

primary-key - MySQL keys : PRIMARY KEY, FOREIGN KEY, KEY -- "KEY"是什么？
查看“mysqldump -d”并看到一个键是 KEY，而不是“PRIMARY KEY”或“FOREIGN KEY” 什么是关键？示例: CREATE TABLE IF NOT EXISTS `TA
python - 从字典中获取键 : keys() vs 'keys for keys in dict.keys()'
在我开始使用 Python 的过程中尝试找出最佳编码实践。我用 Pandas 写了一个 csv 到数据框阅读器。它使用格式: dataframe = read_csv(csv_input, useco
key - 'MyhomePage({Key key, this.title}) : super(key: key);' in Flutter - what would be a clear explanation with an example?
在 Flutter 中，用一个例子可以清楚地解释什么？我的困惑是关于 key，如下面的代码所示。 MyHomepage({Key key, this.title}) : super(key: key
android - Google API 中的server-key、android-key、browser-key 和iOS key 有什么区别？
我在我的 Android 应用程序中使用 GCM。要使用 GCM 服务，我们需要创建 Google API key 。因此，我为 android、服务器和浏览器 key 创建了 API key 。似乎
azure - 如何在一个 key 中创建具有多个值的 key 保管库 key ？
我想在 azure key 保管库中创建一个 secret ，该 key 将具有多个 key (例如 JSON)。例如- { "storageAccountKey":"XXXXX", "Co
encryption - 指定的 key 不是此加密的有效 key : Key size is not valid. 得到的 key 长度为:15
尝试通过带有 encodeforURL() 的 url 发送 key 时，我不断收到错误消息和 decodefromUrl() .代码示例如下。这是我的入口页面: key = generateSec
key - 检查雪花变体中是否存在 key
是否有检查雪花变体字段中是否存在键的函数？最佳答案您可以使用 IS_NULL_VALUE 来查看 key 是否存在。如果键不存在，则结果将为 NULL。如果键存在，如果值为 JSON null，则
key - 无法从 keys.gnupg.net 添加 key
我正在尝试运行此命令: sudo apt-key adv --keyserver keys.gnupg.net --recv-keys 1C4CBDCDCD2EFD2A 但我收到一个错误: Execu
python - 我该如何放置字典 {key : value} in it's designated key in a dictionary so that it is {key: {key: value}} after counting value
我有一个 csv 文件，我正在尝试对 row[3] 进行计数，然后将其与 row[0] 连接 row[0] row[3] 'A01' 'a' 'B02'
c# - 如何在 C# 中编写一个看起来像 A(key, B(key, C(key, ValFactory(key)))) 的递归函数？
如何编写具有这种形式的函数: A(key, B(key, C(key, ValFactory(key)))) 其中 A、B 和 C 具有此签名: TResult GetOrAdd(string key
javascript - 为什么 Object.keys(this).map(key => (this as any)[key])？
审查 this method我很好奇为什么它使用 Object.keys(this).map(key => (this as any)[key])? 只调用 Object.keys(this).ind
Python: `key not in my_dict` 但 `key in my_dict.keys()`
我有一个奇怪的情况。我有一个字典，self.containing_dict。使用调试器，我看到了字典的内容，并且可以看到 self 是其中的一个键。但是看看这个: >>> self in self.c
google-apps-script - computeRsaSha256Signature() 返回无效参数 : key error when key is public key or rsa private key
我需要在我的 Google Apps 脚本中使用 RSA-SHA256 和公钥签署消息。我正在尝试使用 Utilities.computeRsaSha256Signature(value, key)
reactjs - {...{ key }} 与 key={key} 相同来分配 React 属性吗？
我是 React 的初学者开发人员，几天前我看到了一些我不理解的有趣语法。 View组件上有{...{key}}，我会写成 key={key} ，它完全一样吗？你有链接或解释吗？ render()
sql - 代理 key 、合成 key 和人工 key 之间有区别吗？
代理 key 、合成 key 和人工 key 之间有什么区别吗？我不清楚确切的区别。最佳答案代理键、合成键和人工键是同义词。技术关键是另一个。它们都表示“没有商业意义的主键”。它们不同于具有超出
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
Perl:如何获取 key "keys on reference is experimental"上的 key
我正在寻找 Perl 警告的解决方案 “引用键是实验性的” 我从这样的代码中得到这个: foreach my $f (keys($normal{$nuc}{$e})) {#x, y, and z 我在
java - JCE中是否有任何机制来指定 key 生成生命周期( session key 或永久 key )
我正在为 HSM 实现 JCE 提供程序 JCE中有没有机制指定 key 生成类型例如: session key 或永久 key KeyGenerator keygen = KeyGener
android - invalid key hash key 哈希与任何存储的 key 哈希不匹配
我在 Facebook 上创建了一个应用程序。我已经正确添加了 keyhash 并且应用程序运行良好但是当我今天来并尝试再次运行它时它给了我这个错误。这已经是第二次了。 Previsouly 当我收

首页

博学

6Ren·AI

商城

scala - 如何计算由 Spark 中的 (Key, [Value]) 对组成的 RDD 中每对的平均值？