- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在遍历文件以收集有关字典中列和行中的值的信息。我有以下在本地工作的代码:
def search_nulls(file_name):
separator = ','
nulls_dict = {}
fp = open(file_name,'r')
null_cols = {}
lines = fp.readlines()
for n,line in enumerate(lines):
line = line.split(separator)
for m,data in enumerate(line):
data = data.strip('\n').strip('\r')
if str(m) not in null_cols:
null_cols[str(m)] = defaultdict(lambda: 0)
if len(data) <= 4:
null_cols[str(m)][str(data)] = null_cols[str(m)][str(data)] + 1
return null_cols
files_to_process = ['tempfile.csv']
results = map(lambda file: search_nulls(file), files_to_process)
上面的代码在没有 Spark 的情况下工作正常。我评论了上面的最后两行,并尝试使用 spark,因为这是需要分布式运行的东西的原型(prototype):
os.environ['SPARK_HOME'] = <path_to_spark_folder>
conf = SparkConf().setAppName("search_files").setMaster('local')
sc = SparkContext(conf=conf)
objects = sc.parallelize(files_to_process)
resulting_object = \
objects.map(lambda file_object: find_nulls(file_object))
result = resulting_object.collect()
但是,当使用 spark 时,这会导致以下错误:
File "<path-to-spark>/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main
process()
File "<path-to-spark>/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process
serializer.dump_stream(func(split_index, iterator), outfile)
File "<path-to-spark>/python/lib/pyspark.zip/pyspark/serializers.py", line 267, in dump_stream
bytes = self.serializer.dumps(vs)
File "<path-to-spark>/python/lib/pyspark.zip/pyspark/serializers.py", line 415, in dumps
return pickle.dumps(obj, protocol)
TypeError: expected string or Unicode object, NoneType found
我一直找不到任何明显的失败原因,因为它在本地完美运行,而且我没有在工作节点之间共享任何文件。事实上,无论如何我只是在我的本地机器上运行它。
有谁知道这可能失败的充分理由?
最佳答案
问题的根源是以下一行:
null_cols[str(m)] = defaultdict(lambda: 0)
正如您在 What can be pickled and unpickled? 中所读到的那样节the pickle module documentation :
The following types can be pickled:
- ...
- functions defined at the top level of a module (using def, not lambda)
- built-in functions defined at the top level of a module
- ...
应该清楚 lambda: 0
不符合上述条件。例如,要使其工作,您可以将 lambda 表达式替换为 int
:
null_cols[str(m)] = defaultdict(int)
我们怎么可能将 lambda 表达式传递给 PySpark 中的高阶函数?细节决定成败。 PySpark 根据上下文使用不同的序列化程序。要序列化闭包,包括它使用自定义的 lambda 表达式 cloudpickle
它支持 lambda 表达式和嵌套函数。它使用默认的 Python 工具来处理数据。
一些旁注:
file
对象来读取数据。它不可移植,不能在本地文件系统之外工作。您可以改用 SparkContex.wholeTextFiles
。with
语句通常是最好的方法关于python - 如何解决 pyspark 中的 pickle 错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33577264/
@Cacheable在同一类中方法调用无效 上述图片中,同一个类中genLiveBullets()方法调用同类中的queryLiveByRoom()方法,这样即便标识了Cacheable标签,
目录 @Transaction注解导致动态切换更改数据库失效 使用场景 遇到问题 解决 @Transaction
@RequestBody不能class类型匹配 在首次第一次尝试使用@RequestBody注解 开始加载字符串使用post提交(貌似只能post),加Json数据格式传输的时候,
目录 @Autowired注入static接口问题 @Autowired自动注入普通service很方便 但是如果注入static修饰的serv
目录 @RequestBody部分属性丢失 问题描述 JavaBean实现 Controller实现
目录 解决@PathVariable参数接收不完整的问题 今天遇到的问题是: 解决办法: @PathVariable接受的参
这几天在项目里面发现我使用@Transactional注解事务之后,抛了异常居然不回滚。后来终于找到了原因。 如果你也出现了这种情况,可以从下面开始排查。 1、特性 先来了解一下@Trans
概述: ? 1
场景: 在处理定时任务时,由于这几个方法都是静态方法,在aop的切面中使用@Around注解,进行监控方法调用是否有异常。 发现aop没有生效。 代码如下:
最近做项目的时候 用户提出要上传大图片 一张图片有可能十几兆 本来用的第三方的上传控件 有限制图片上传大小的设置 以前设置的是2M&nb
我已经实现了这个SCIM reference code在我们的应用程序中。 我实现的代码确实通过了此postman link中存在的所有用户测试集合。 。我的 SCIM Api 也被 Azure 接受
我一直对“然后”不被等待的行为感到困扰,我明白其原因。然而,我仍然需要绕过它。这是我的用例。 doWork(family) { return doWork1(family)
我正在尝试查找 channel 中的消息是否仍然存在,但是,我不确定如何解决 promise ,查看其他答案和文档,我可以看到它可能是通过函数实现的,但我是不完全确定如何去做。我希望能在这方面获得一些
我有以下情况: 同一工作区中的 2 个 Eclipse 项目:Apa 和 Bepa(为简洁起见,使用化名)。 Apa 项目引用(包括)Bepa 项目。 我在 Bepa 有一个类 X,具有公共(publ
这个问题已经有答案了: Why am I getting a NoClassDefFoundError in Java? (31 个回答) 已关闭 6 年前。 我正在努力学习 spring。所以我输入
我正在写一个小游戏,屏幕上有许多圆圈在移动。 我在两个线程中管理圈子,如下所示: public void run() { int stepCount = 0; int dx;
我在使用 Sympy 求解方程时遇到问题。当我运行代码时,例如: 打印(校正(10)) 我希望它打印一个数字 f。相反,它给我错误:执行中止。 def correction(r): from
好吧,我制作的每个页面都有这个问题。我不确定我做错了什么,但我所有的页面都不适用于所有分辨率。可能是因为我使用的是宽屏?大声笑我不确定,但在小于宽屏分辨率的情况下,它永远不会看起来正确。它的某些部分你
我正在尝试像这样进行一个非常简单的文化 srting 检查 if(culture.ToUpper() == "ES-ES" || "IT-IT") { //do something } else
Closed. This question is off-topic. It is not currently accepting answers. Learn more。 想改进这个问题吗?Upda
我是一名优秀的程序员,十分优秀!