apache-spark - PySpark:ModuleNotFoundError:没有名为 'app' 的模块-6ren

apache-spark - PySpark:ModuleNotFoundError:没有名为 'app' 的模块

转载作者：行者123 更新时间：2023-12-04 04:00:40

我正在使用以下语句将数据框保存到 PySpark 中的 CSV 文件中:

df_all.repartition(1).write.csv("xyz.csv", header=True, mode='overwrite')

但我得到以下错误

Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 218, in main
func, profiler, deserializer, serializer = read_udfs(pickleSer, infile, eval_type)
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 138, in read_udfs
arg_offsets, udf = read_single_udf(pickleSer, infile, eval_type)
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 118, in read_single_udf
f, return_type = read_command(pickleSer, infile)
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 58, in read_command
command = serializer._read_with_length(file)
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/serializers.py", line 170, in _read_with_length
return self.loads(obj)
File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/serializers.py", line 559, in loads
return pickle.loads(obj, encoding=encoding)
ModuleNotFoundError: No module named 'app'

我正在使用 PySpark 2.3.0 版

尝试写入文件时出现此错误。

    import json, jsonschema
    from pyspark.sql import functions
    from pyspark.sql.functions import udf
    from pyspark.sql.types import IntegerType, StringType, FloatType
    from datetime import datetime
    import os

    feb = self.filter_data(self.SRC_DIR + "tl_feb19.csv", 13)
    apr = self.filter_data(self.SRC_DIR + "tl_apr19.csv", 15)

    df_all = feb.union(apr)
    df_all = df_all.dropDuplicates(subset=["PRIMARY_ID"])

    create_emi_amount_udf = udf(create_emi_amount, FloatType())
    df_all = df_all.withColumn("EMI_Amount", create_emi_amount_udf('Sanction_Amount', 'Loan_Type'))

    df_all.write.csv(self.DST_DIR + "merged_amounts.csv", header=True, mode='overwrite')

最佳答案

错误很明显，没有模块'app'。 您的 Python 代码在驱动程序上运行，但您 udf 在执行程序 PVM 上运行。 当您调用 udf , spark 序列化 create_emi_amount将其发送给执行人。

所以，在你的方法中的某处create_emi_amount您使用或导入应用程序模块。
解决您的问题的方法是在驱动程序和执行程序中使用相同的环境。在 spark-env.sh在 PYSPARK_DRIVER_PYTHON=... 中设置保存 Python virtualenv和 PYSPARK_PYTHON=... .

关于apache-spark - PySpark:ModuleNotFoundError:没有名为 'app' 的模块，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56901591/

文章推荐： maven-2 - 是否有任何类似于 'dist' 的 Maven 目标？

文章推荐： sorting - OpenGL深度排序

文章推荐： apache-spark - 了解Spark Shuffle溢出

文章推荐： readability - 用于提高对陌生代码的理解的工具和技术？

git - 名为 'master' 的分支是否特殊？
这个问题在这里已经有了答案: Is Git’s "master" branch name more than just a name? (3 个回答) What will break if I don
crash - 名为 “MyApp”的Plone应用程序使Plone崩溃
我使用了Plone实例文件夹的“bin /”目录中的“paster”命令来创建一个名为“MyApp”的plone应用程序(来自模板)，该命令是: (from instance's root folde
symfony - 名为 'email' 的无效字段覆盖
我正在尝试覆盖 FOSUserBundle 的用户映射的两个属性。 use FOS\UserBundle\Model\User as BaseUser; ... use Symfony\Bridge\
scala - 名为 Scala 自类型仍然阴影 "this"？
工作通过 these posts让我认为我了解自我类型，至少在某种程度上。所以我创建了一个按预期失败的例子: scala> trait A { val v = "a" } defined trait
java - 名为 xyz 的实体管理器没有持久性提供程序
我在 IntelliJ 中有一个 JavaFX Maven 项目，它使用 Hibernate。当应用程序启动时，我收到以下错误消息: No persistence provider for entit
javascript - 名为 'record' 的变量如何传入函数？
我正在尝试构建一个数据透视表，并使用开源代码并摸索着这个函数。record[] 如何传递给这个函数？似乎没有经过或任何声明。怎么能直接来呢？完整代码可以在这里找到https://github.com
javascript - 名为 `index` 错误的重复路由
我的应用程序有 abc.com 链接，这是一个主页和 abc.com/user123(有一个动态部分)，这是一个用户登录的特定配置文件页面。早些时候，我通过这样做实现了这一点: this.route
java - 名为 'Flutter' 的文件已存在于此位置
当我在使用 mac book pro 的 Android Studio 上设置 Flutter Sdk 路径时，我遇到错误 Flutter SDK 路径未给出(并且打开一个弹出窗口并显示消息“名为‘F
postgresql - 名为 "postgres"的数据库
我刚刚设置了 Postgres 供我网络上的不同用户使用。每个用户都有自己的用户名/密码/数据库，但是当我连接到 Pg 时，我还可以看到一个“postgres”数据库(甚至可以创建表等)。我试图从公众
MySQL datetime >= 名为 "to"的列
我正在尝试从 MySQL 数据库中获取一些数据。所以我要做的是: select * from my_table where 'to' ='0000-00-00 00:00:00'; 这给了我空集，但我
mysql - 名为 'Index' 的表
我有一个名为“索引”的表。我意识到这是 MySQL 中的关键字，想知道如何在查询中引用该表？我的错误: #1064 - You have an error in your SQL syntax; c
java - 名为 'localhost' 的远程数据库服务器的数据库连接字符串
我在机器 myuniversity.edu 上设置了一个远程 mysql 数据库服务器，服务器名为“localhost”。我在上面有一个名为“MyDatabase”的数据库。 I want to co
android - 名为 SWIG 的外部工具不存在该文件
我正在尝试使用 Android NDK 构建应用程序。我已按照所有步骤操作，一切正常，正在制作 .so 文件。但是在 Eclipse 中，当我尝试清理项目时出现以下错误: The file does
ios - 覆盖 UIImage(名为 : )
我正在重写 UIImage 类方法 init(named:)。我的目标是能够检索图像的文件名。代码看起来像这样: class UIImageWithFileName: UIImage { l
java - 名为 ThreadSafe 的注解
@ThreadSafe public class A { } 这个注解实际上使类线程安全还是只是为了提高可读性？最佳答案参见 @ThreadSafe Annotation : Place this
c# - 名为 'Table' 的数据表已属于此数据集
当我将第二个表(dtResult)添加到数据集时出现错误名为“Table”的数据表已属于此数据集。 DataTable dtSession = new DataTable(); DataTable
c# - 名为 'DefaultApi' 的路由已经在路由集合中
这个问题可能看起来重复，但略有不同。在 SO 的所有其他问题中，我注意到他们注册了多条路线。但就我而言，我只有一条路线。我正在创建 asp.net webapi(框架 4.5)并且在 Registe
c# - 名为 'MS_attributerouteWebApi' 的路由已经在路由集合中
我最近将 Microsoft.AspNet.WebApi.WebHost 添加到 MVC WebAPI 项目中，这将允许我使用 [Route("api/some-action")] 归因于我的行动。我
c++ - 名为 'exception' 的命名空间导致编译问题
我有一个名为“异常”的命名空间的问题让我们考虑以下示例标题: #include namespace exception { struct MyException : public std::e
visual-studio - 名为 'NuGet' 的包源无效或不可用
我昨天安装了 Nuget 1.2，今天，当我尝试安装 Entity Framework 包时，我在包管理器控制台中遇到了以下问题: PM> install-package entityframewor

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章