作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
即使是很小的数据集,执行多个笛卡尔联接时也会出现内存错误。谁能解释为什么会这样?
In [1]: foo = sc.records([{'foo': 123}, {'foo': 321}])
In [2]: bar = sc.records([{'bar': 123}, {'bar': 321}])
In [3]: baz = sc.records([{'baz': 123}, {'baz': 321}])
In [4]: qux = foo.cartesian(bar)\
...: .map(lambda (x,y): x.merge(y))\
...: .cartesian(baz)\
...: .map(lambda (x,y): x.merge(y))
In [5]: qux.collect()
java.lang.OutOfMemoryError: GC overhead limit exceeded
最佳答案
我最终定义了自己的cartesianJoin函数
def cartesianJoin(self, other):
return self.map(lambda rec: (0, rec)).join(other.map(lambda rec: (0, rec))).map(lambda (key, (x, y)): x.merge(y))
end
关于hadoop - 多个笛卡尔加入pySpark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27434432/
我是一名优秀的程序员,十分优秀!