gpt4 book ai didi

apache-spark - 在现有 RDD 中创建新记录

转载 作者:行者123 更新时间:2023-12-02 08:17:37 26 4
gpt4 key购买 nike

我正在尝试在 RDD 中创建更多记录:

现在,我有一个 RDD[(String, List(String))],内容是:

("str_1", List("sub_str_1", "sub_str_2"))  
("str_2", List("sub_str_3", "sub_str_4"))
("str_3", List("sub_str_5", "sub_str_6"))

我想通过扁平化 list[String] 将其转换为 RDD[(String, String)]
转换后的内容应该是

("str_1", "sub_str_1")
("str_1", "sub_str_2")
("str_2", "sub_str_3")
("str_2", "sub_str_4")
("str_3", "sub_str_5")
("str_3", "sub_str_6")

似乎所有可以应用于RDD的方法都不能增加记录数。我能做的就是将当前的 RDD 转换为具有相同记录数的新 RDD。

我的问题:有没有办法增加 RDD 中的记录数?

最佳答案

使用flatMap

rdd.flatMap { case (str, list) => list.map(elt => (str, elt)) }

关于apache-spark - 在现有 RDD 中创建新记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40476594/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com