- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我找不到只参与 rdd
的方法. take
看起来很有希望,但它返回 list
而不是 rdd
.我当然可以将其转换为 rdd
,但这似乎既浪费又丑陋。
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = sc.parallelize(my_rdd.take(10000))
最佳答案
是的,确实有更好的方法。您可以使用 sample方法来自 RDD
s,它指出:
sample(withReplacement, fraction, seed=None)
Return a sampled subset of this RDD.
quantity = 10000
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = my_rdd.sample(False, quantity / my_rdd.count())
关于apache-spark - 参加 rdd 并保持 rdd,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35784263/
很荣幸本周六被邀请到百度“英雄汇”移动开发者沙龙,在此次会议中,看到不少的大牛分享不错的干货,今天把我在会议中所听到的内容给大家分享一下。 数据价值 看起来就是广告的会议,其实也给我们统计出很多
我试图部分消耗Kotlin中的序列,以将其拆分。 fun main() { val seq = listOf(0, 1, 2, 3, 4, 5, 6, 7, 8, 9).asSequence(
我正在处理一个查询,试图找出您当前的连续出勤记录。所以换句话说,人 1 参加了最后 5 场事件,人 2 参加了最后 6 场事件,等等。我为此获得的数据文件非常简单: Event Number - Un
我找不到只参与 rdd 的方法. take看起来很有希望,但它返回 list而不是 rdd .我当然可以将其转换为 rdd ,但这似乎既浪费又丑陋。 my_rdd = sc.textFile("my
我目前正在从事学术目的的自然语言处理工作,我想获取 Microsoft Research Sentence Completion Challenge 数据集。 不幸的是,它似乎不再可用 on Micr
我正在尝试让所有参加特定 Activity 的 Facebook 好友。 select uid, rsvp_status from event_member where uid IN (SELECT
我们的任务是编写一段代码来猜测 0 到 100 之间的一个 secret 数字。这是我的一段代码: low = 0 mid = 50 high = 100 secretnum = "Is your s
下学期我将使用我的 MacBook Pro 参加基于 Python 的计算机科学类(class)。它将以定制设计为中心 package对于这个类。问题是这个软件包是由 Microsoft Resear
我是一名优秀的程序员,十分优秀!