python - PySpark 序列化 EOFError-6ren

python - PySpark 序列化 EOFError

转载作者：IT老高更新时间：2023-10-28 22:19:28

28

4

我正在读取 CSV 作为 Spark DataFrame 并对其执行机器学习操作。我不断收到 Python 序列化 EOFError - 知道为什么吗？我认为这可能是一个内存问题——即文件超出了可用 RAM——但大幅减小 DataFrame 的大小并不能防止 EOF 错误。

下面的玩具代码和错误。

#set spark context
conf = SparkConf().setMaster("local").setAppName("MyApp")
sc = SparkContext(conf = conf)
sqlContext = SQLContext(sc)

#read in 500mb csv as DataFrame
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',
     inferschema='true').load('myfile.csv')

#get dataframe into machine learning format
r_formula = RFormula(formula = "outcome ~ .")
mldf = r_formula.fit(df).transform(df)

#fit random forest model
rf = RandomForestClassifier(numTrees = 3, maxDepth = 2)
model = rf.fit(mldf)
result = model.transform(mldf).head()

在单个节点上使用 spark-submit 重复运行上述代码会引发以下错误，即使在拟合模型之前减小了 DataFrame 的大小(例如 tinydf = df .sample(False, 0.00001):

Traceback (most recent call last):
  File "/home/hduser/spark1.6/python/lib/pyspark.zip/pyspark/daemon.py", line 157, 
     in manager
  File "/home/hduser/spark1.6/python/lib/pyspark.zip/pyspark/daemon.py", line 61, 
     in worker
  File "/home/hduser/spark1.6/python/lib/pyspark.zip/pyspark/worker.py", line 136, 
     in main if read_int(infile) == SpecialLengths.END_OF_STREAM:
  File "/home/hduser/spark1.6/python/lib/pyspark.zip/pyspark/serializers.py", line 545, 
     in read_int
    raise EOFError
  EOFError

最佳答案

该错误似乎发生在 pySpark read_int 函数中。代码如下spark site :

def read_int(stream):
length = stream.read(4)
if not length:
    raise EOFError
return struct.unpack("!i", length)[0]

这意味着当从流中读取 4 个字节时，如果读取了 0 个字节，则会引发 EOF 错误。 python 文档是 here .

关于python - PySpark 序列化 EOFError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36561804/

28

4

0

文章推荐：引用类型的 C++11 成员变量， vector push_back 后的不同行为

ruby-on-rails - 为什么 MailChimp 会出现间歇性 Excon::Errors::SocketError: EOFError (EOFError) 错误？
从 Rails 控制台使用 MailChimp gem 时出现间歇性错误。这是错误: Excon::Errors::SocketError: EOFError (EOFError) from /
python - 为什么我收到 EOFError
我正在使用 tkinter 和 urllib 制作这个程序，它应该像一个下载管理器。在我几乎完成该程序后，我意识到我没有为下载定义取消按钮。在深入研究之后，我发现了多处理(在此之前我只是使用线程)，显
python - 使用结构运行子进程时出现 EOFError
当我尝试 chown 一个目录时，Fabric 给我一个 EOFError。只有当我从 fabric 之前运行的 python 脚本运行子进程时才会发生。来 self 的 fabfile: ...
python - 从子进程开始时出现 EOFError
当我使用来自其他脚本的子进程启动我的 python3 脚本时，出现以下错误: Select the keyword preset you want to use:Traceback (most rec
python - 加载pickled数据时cPickle EOFError
编辑:我很蠢对不起大家。我的循环不工作的原因是一个极其愚蠢的原因；我的 pickle.dump() 参数顺序错误。操作第一次 pickle 物体，抱歉，如果这是一个棘手的问题；看过各种其他 EO
python - 多处理管理器的 EOFError
我有一堆客户端通过 0MQ 连接到服务器。我有一个管理器队列，用于工作池与每台客户端计算机上的主进程进行通信。在一台有 250 个工作进程的客户端机器上，我几乎立即看到一堆 EOFError。它们发
Python:EOFError:读取一行时为EOF
这可能会重复，但现有的答案都没有解决我的问题。因此，我使用的是 Python 2.7，每当我尝试此操作时都会收到此错误(标题): number = int(raw_input('Number : '
python - Pip 安装 EOFError
这个问题在这里已经有了答案: Unable to install pygame on Python via pip (Windows 10) (6 个答案) 关闭 2 年前。我正在使用 Windo
python - EOFError 超出输入 Python
我正在尝试使用 pickle 为我的游戏创建一个保存文件，但是当我尝试提交我的字典，然后取回该信息时，它不起作用。 import pickle data = {'health':100, 'gold'
python - 无法捕获 python EOFError
我读取了一个只包含一行的文件。但是，在循环结束之前我无法停止读取文件。即 python 不会抛出 EOFError 异常。我的代码有什么问题吗？ for x in range(5): try:
python - py2exe 给出 EOFError
我有一个简单的程序，我使用 pygame 导入声音，但它仍然是一个 CLI 程序。每当我将它编译成一个 exe 时，当我尝试运行它时它会给我一个 EOFError，它看起来像这样 Traceback
python - Pickle:读字典，EOFError
我最近发现了 pickle，这很神奇。但是当它用于我的实际脚本时，它对我来说是错误的，用一个单项字典测试它工作正常。我的真实脚本是数千行代码，其中存储了 Maya 中的各种对象。我不知道它是否与大小有
Python pickle 字典 EOFError
我有几个脚本在服务器上运行，可以对各种词典进行 pickle 和 unpickle。它们都使用相同的基本代码进行 pickle ，如下所示: SellerDict=open('/home/hostad
python - Python 脚本中的 EOFError
我有以下代码片段: def database(self): databasename="" host="" user="" password="" try:
python - PySpark 序列化 EOFError
我正在读取 CSV 作为 Spark DataFrame 并对其执行机器学习操作。我不断收到 Python 序列化 EOFError - 知道为什么吗？我认为这可能是一个内存问题——即文件超出了可用
python - EOFError : Ran out of input 错误
当我运行下面的代码时，我收到此错误消息“EOFError: Ran out of input”这是什么意思？？怎么才能矫正？？以及如何在屏幕上输出记录的详细信息。 import pickle # th
python - EOFError : marshal data too short
为什么我在运行 django 服务器时会出现以下错误，我该如何解决？ : EOFError: marshal data too short 细节 Performing system checks...
ruby-on-rails - 保存设计用户时出现Rails EOFError(到达文件末尾)
尝试创建用户时，我在生产中遇到此错误(我正在使用devise gem)。 EOFError (end of file reached): 我之前遇到此问题，这是由于我使用zoho mail的smtp设
ruby-on-rails - “slow” API上的ActiveResource EOFError
我正在努力解决这一问题，我们将不胜感激! 我有两个Rails应用程序，我们称它们为Client and Service，它们都是非常简单的普通REST界面-这是基本方案: 客户端向服务发出POST/r
celery 节拍未启动 EOFError ('Ran out of input' )
一切正常，直到: celery beat v3.1.18 (Cipater) is starting. __ - ... __ - _ Configuration ->

首页

博学

6Ren·AI

商城

python - PySpark 序列化 EOFError