- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我将 python 2.7 与 spark 1.5.1 一起使用,我得到了这个:
df = sqlContext.read.parquet(".....").cache()
df = df.filter(df.foo == 1).select("a","b","c")
def myfun (row):
return pyspark.sql.Row(....)
rdd = df.map(myfun).cache()
rdd.first()
==> UnpicklingError: NEWOBJ class argument has NULL tp_new
怎么了?
最佳答案
像往常一样,pickling 错误归结为 myfun
被不可 picklable 对象关闭。
像往常一样,解决方案是使用mapPartitions
:
import pygeoip
def get_geo (rows):
db = pygeoip.GeoIP("/usr/share/GeoIP/GeoIPCity.dat")
for row in rows:
d = row.asDict()
d["new"] = db.record_by_addr(row.client_ip) if row.client_ip else "noIP"
yield d
rdd.mapPartitions(get_geo)
代替 map
:
import pygeoip
db = pygeoip.GeoIP("/usr/share/GeoIP/GeoIPCity.dat")
def get_geo (row):
d = row.asDict()
d["new"] = db.record_by_addr(row.client_ip) if row.client_ip else "noIP"
return d
rdd.map(get_geo)
关于PySpark.RDD.first -> UnpicklingError : NEWOBJ class argument has NULL tp_new,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33112441/
我正在使用类型对象开发一种新的 Python 数据类型。我使用“Python 2.7.12 的定义新类型页面”作为指南,并且能够根据我的特定需求调整该页面上的示例。我能够创建新的数据类型并将其添加到
在 tp_alloc 中创建的任何东西都应该在 tp_dealloc 中销毁,这是真的吗?对于 {tp_new, tp_free} 也是如此吗? 它看起来很明显是对称的,但我将不胜感激。 我的实际用例
当我执行波纹管时,出现 Unpickling 错误 rdd = sc.parallelize([('HOMICIDE', {'2017': 1}), ('DECEPTIVE PRACTICE', {'
我将 python 2.7 与 spark 1.5.1 一起使用,我得到了这个: df = sqlContext.read.parquet(".....").cache() df = df.filte
我遇到了一个非常奇怪的问题,使用spicy.spacial距离矩阵计算工作正常,但使用距离矩阵的自定义函数会导致Spark错误。 我的数据如下所示: 33.848366,-84.3733852,A,1
我最初在 Python capi-sig 列表上问过这个问题:How to pass arguments to tp_new and tp_init from subtypes? 我正在阅读 Pyth
我是一名优秀的程序员,十分优秀!