apache-spark - 参加 rdd 并保持 rdd-6ren

apache-spark - 参加 rdd 并保持 rdd

转载作者：行者123 更新时间：2023-12-03 17:05:52

27

4

我找不到只参与 rdd 的方法. take看起来很有希望，但它返回 list而不是 rdd .我当然可以将其转换为 rdd ，但这似乎既浪费又丑陋。

 my_rdd = sc.textFile("my_file.csv")
 part_of_my_rdd = sc.parallelize(my_rdd.take(10000))

我有更好的方法来做到这一点吗？

最佳答案

是的，确实有更好的方法。您可以使用 sample方法来自 RDD s，它指出:

sample(withReplacement, fraction, seed=None)

Return a sampled subset of this RDD.

quantity = 10000
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = my_rdd.sample(False, quantity / my_rdd.count())

关于apache-spark - 参加 rdd 并保持 rdd，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35784263/

27

4

0

文章推荐： html - R Markdown 图图例被切断

文章推荐： ansible - ansible with_together 中的复杂循环

文章推荐：安卓谷歌日历 "Unable to launch event"

文章推荐： scala - 在 main 和 test 中重复包对象

参加“百度英雄汇”后的经验分享
很荣幸本周六被邀请到百度“英雄汇”移动开发者沙龙，在此次会议中，看到不少的大牛分享不错的干货，今天把我在会议中所听到的内容给大家分享一下。数据价值看起来就是广告的会议，其实也给我们统计出很多
kotlin - 参加 Kotlin 的序列
我试图部分消耗Kotlin中的序列，以将其拆分。 fun main() { val seq = listOf(0, 1, 2, 3, 4, 5, 6, 7, 8, 9).asSequence(
mysql - 参加 Streak MySQL 查询
我正在处理一个查询，试图找出您当前的连续出勤记录。所以换句话说，人 1 参加了最后 5 场事件，人 2 参加了最后 6 场事件，等等。我为此获得的数据文件非常简单: Event Number - Un
apache-spark - 参加 rdd 并保持 rdd
我找不到只参与 rdd 的方法. take看起来很有希望，但它返回 list而不是 rdd .我当然可以将其转换为 rdd ，但这似乎既浪费又丑陋。 my_rdd = sc.textFile("my
machine-learning - 参加 Microsoft Research 句子完成挑战
我目前正在从事学术目的的自然语言处理工作，我想获取 Microsoft Research Sentence Completion Challenge 数据集。不幸的是，它似乎不再可用 on Micr
android - facebook FQL 让 friend 参加 Activity
我正在尝试让所有参加特定 Activity 的 Facebook 好友。 select uid, rsvp_status from event_member where uid IN (SELECT
python - 参加 Python 类(class)并学习二分搜索，对为什么我的语义不正确感到困惑
我们的任务是编写一段代码来猜测 0 到 100 之间的一个 secret 数字。这是我的一段代码: low = 0 mid = 50 high = 100 secretnum = "Is your s
python - 我应该使用 Windows 还是 Mac 参加 Python CS 类(class)？
下学期我将使用我的 MacBook Pro 参加基于 Python 的计算机科学类(class)。它将以定制设计为中心 package对于这个类。问题是这个软件包是由 Microsoft Resear

首页

博学

6Ren·AI

商城

apache-spark - 参加 rdd 并保持 rdd