作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
出于测试目的,虽然我没有生产集群,但我在本地使用spark:
print('Setting SparkContext...')
sconf = SparkConf()
sconf.setAppName('myLocalApp')
sconf.setMaster('local[*]')
sc = SparkContext(conf=sconf)
print('Setting SparkContext...OK!')
params = [object1, object2]
rdd = df.rdd.keyBy(lambda x: (x.a, x.b, x.c)) \
.groupByKey() \
.mapValues(lambda value: self.__data_interpolation(value, params))
def __data_interpolation(self, data, params):
# TODO: only for testing
return data
最佳答案
似乎由于groupByKey()
的使用,导致代码段中的性能降低的主要原因。 groupByKey
的问题在于,它最终会拖尾所有键值对,从而导致不必要地传输了许多数据。 Avoid GroupByKey是一个很好的解释此问题的引用。
要变通解决此问题,您可以:
reduceByKey
(更多信息也包含在上面的避免GroupByKey链接中)。 关于apache-spark - 在本地主机上 Spark ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40411131/
我是一名优秀的程序员,十分优秀!