python - 使用 pyspark 缓存简单 RDD 时出错，而没有缓存代码则工作正常(How to make a class picklable in a Notebook)-6ren

python - 使用 pyspark 缓存简单 RDD 时出错，而没有缓存代码则工作正常(How to make a class picklable in a Notebook)

转载作者：太空宇宙更新时间：2023-11-03 15:36:01

25

4

我有以下简单的代码，导致有关缓存的错误:

trips_in = sc.textFile("trip_data.csv")
trips = trips_in.map(lambda l: l.split(",")).map(lambda x: parseTrip(x)).cache()

trips.count()

函数parseTrip()获取字符串列表并创建并返回一个Trip类:

class Trip:
  def __init__(self, id, duration):
    self.id = id
    self.duration = duration

我在执行 count() 操作后立即收到错误。但是，如果我删除第二行末尾的 cache() ，一切都会正常工作。根据错误，问题是 Trip 类无法被 pickle:

PicklingError: Can't pickle __main__.Trip: attribute lookup __main__.Trip failed

那么我怎样才能让它变得可挑选(如果它是一个实际的单词)？请注意，我使用的是 Databricks 笔记本，因此我无法为类定义创建单独的 .py 以使其可挑选。

最佳答案

环境不会影响答案 - 如果您想使用自定义类，它必须可以在集群中的每个节点上导入。

对于单个模块，您可以轻松使用 SparkContext.addPyFile 以及 GitHub Gist 的 URL (或其他支持的格式:“file in HDFS (or other Hadoop-supported filesystems), or anHTTP, HTTPS or FTP URI ”)
- 创建要点。
- 点击原始链接并复制网址。
- 在笔记本中调用:
```
sc.addPyFile(raw_gist_url)
```

对于复杂的依赖关系，您可以分发 Egg 文件。

创建Python package using setuptools .

目录结构:

.
├── setup.py
└── trip
    └── __init__.py

示例设置文件:

#!/usr/bin/env python

from setuptools import setup

setup(name='trip',
      version='0.0.1',
      description='Trip',
      author='Jane Doe',
      author_email='jane@example.com',
      url='https://example.com',
      packages=['trip'],)

创建egg文件:
```
python setup.py bdist_egg
```
这将创建包含 trip-0.0.1-pyX.Y.egg 文件的 dist 目录
转到 Databricks 仪表板 -> 新建 -> 库并从 dist 目录上传 Egg 文件:
将库附加到您要使用的集群。

最后，如果您想要的只是记录类型，则可以使用 namedtuple，无需任何其他步骤:
```
from collections import namedtuple

Trip = namedtuple('Trip', ['id', 'duration'])
```

关于python - 使用 pyspark 缓存简单 RDD 时出错，而没有缓存代码则工作正常(How to make a class picklable in a Notebook)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42491179/

25

4

0

文章推荐： c# - 推送通知 Chrome Mobile Ver 42+

文章推荐： python - 诱变剂 : how to extract album art properties?

makefile - make clean、make clobber、make distclean、make mrproper 和 make realclean 之间有什么区别？
我并不总是编写 make 文件，但当我这样做时，我喜欢尝试并写好它们。试图使界面与其他开发人员的期望一致始终是一项艰巨的任务。我正在寻找的是所有常见的 make some clean (GNU) ma
makefile - make[1] make[2] make[3] 中的数字是什么意思？
例如，我在运行 makefile 时收到这样的错误: make[3]: *** [/home/ziga/Downloads/openwrt/rakun_openwrt/staging_dir/ho
c - make 时出错 : mingw32-make: *** No rule to make target
我必须创建一个 Makefile，它从不同文件夹中的 .c 文件创建单个可执行文件。 .c 文件包含来自任何这些文件夹的头文件。根目录有3个子目录x/y、x/z、a，所有这些子目录都有一些.c和.h文
c++ - make 给出错误 make : *** No rule to make target `clean' . Stop
您好，我有一个简单的 MakeFile，其中包含: clean: rm -f ex1 但是当我运行命令make clean 时，出现以下错误: make: *** No rule to mak
how to uninstall MinGW and make cygwin 'make' as deafult make program with gcc 3.8.1(如何用GCC 3.8.1卸载MinGW，让Cygwin‘Make’成为默认Make程序)
我已经为一些软件安装了它，但现在我根本不使用那个软件，所以我需要移除MinGW才能使用Cygwin进行Android开发。。我使用的是64位Windows 7
gnu-make - make 没有意识到相对路径名依赖与绝对路径名目标相同
以下是针对我遇到的问题的简化生成文件: all: /tmp/makey/../filey @echo All done /tmp/filey: @echo Filey 当我运行 mak
linux - 收到错误 "make: *** No rule to make target ` 全部'。安装nagios主机时停止."while running this command "make all”
获取错误: make: *** No rule to make target all. Stop." 在安装nagios主机期间运行此命令make all 最佳答案可能的常见错误: 确保将文件命名为
gnu-make - 是否可以将 "pass-through"GNU make jobserver 环境设置为通过第 3 方(非 make)提供服务的 submake
当使用 -jN 运行 gnu-make 规则时，make 会创建 jobserver用于管理跨子制造商的工作数量。此外，您可以通过在 make 配方前添加 + 前缀来“将作业服务器环境传递”到 mak
gnu-make - --always-make 可以不影响子制作吗？
使用 GNU Make 4.1 概括我调用一个子品牌 b.mk来自生成文件 a.mk .b.mk被调用以确保构建子系统。有时我想强制一个目标为 a.mk重制: make -f a.mk --al
gnu-make - gnu make 将许多文件复制到一个位置
这个问题与问题 2543127 的精神相似。 . 我有一个带有头文件列表的 gnu makefile。每个头文件可能位于不同的目录中，例如， HEADERS = $(wildcard *.h) $(w
gnu-make - GNU make 先决条件执行顺序
假设我有以下 GNU make 目标: create_dir: @mkdir objects build_asm: $(ASM_FILES) @echo
makefile - "make"和 "make all"有什么区别？
我有一个具有以下结构的 Makefile(工作示例)。 .PHONY: image flashcard put-files put-files: @echo "=== put-files" i
gnu-make - 如何从 make 目标手动调用另一个目标？
我想要一个这样的makefile: cudaLib : # Create shared library with nvcc ocelotLib : # Create shared li
gnu-make - 获取 make 变量的第一个字母
有没有比更好的方法来获取 GNU make 变量的第一个字符 FIRST=$(shell echo $(VARIABLE) | head -c 1) (不仅笨重而且还要调用外部shell)？最佳答案
Makefile:为什么总是使用 `$(MAKE)` 而不是 `make` ？
我通常使用像 cmake 这样的高级构建系统来构建我的 C/C++ 代码。但是由于各种原因，我直接使用 GNU make。我正在进行递归构建，其中每个目录都有一个 makefile。我最近不得不将
Makefile:为什么总是使用 `$(MAKE)` 而不是 `make` ？
我通常使用像 cmake 这样的高级构建系统来构建我的 C/C++ 代码。但是由于各种原因，我直接使用 GNU make。我正在进行递归构建，其中每个目录都有一个 makefile。我最近不得不将
mingw - mingw32-make 是否重命名为 make？
我安装了最新的mingw，发现没有mingw32-make了。有make.exe，所以我想知道最近是否将mingw32-make重命名为make.exe。最佳答案我不知道您从哪里获得 MinGW，
linux - 在不使用 make 的情况下制作 make
我正在使用 CentOS，但由于一个错误，许多软件包被删除了。所以我没有 yum 和 rpm。所以我想从源代码手动制作 yum，但我也没有制作。我知道一切都会用“制作包”制作。但是 make 自己呢？
gnu-make - 为什么 gnu make 删除这个文件？
考虑这个Makefile: .PHONY: all all: main.txt main.txt: build/main.txt cp build/main.txt . %/main.txt:
gnu-make - 使用 gnu make 中的一个命令从多个文件制作多个文件
假设目录输入中有 1000 个扩展名为 .xhtml 的文件，并且这些文件的某个子集(输出路径在 $(FILES) 中)需要通过 xslt 转换为目录输出中具有相同名称的文件.一个简单的 make 规

首页

博学

6Ren·AI

商城

python - 使用 pyspark 缓存简单 RDD 时出错，而没有缓存代码则工作正常(How to make a class picklable in a Notebook)