apache-spark - 我可以在常规 Spark map 操作中使用 Spark DataFrame 吗？-6ren

apache-spark - 我可以在常规 Spark map 操作中使用 Spark DataFrame 吗？

转载作者：行者123 更新时间：2023-12-02 08:25:29

25

4

我尝试在如下所示的常规 Spark 映射操作中使用在 Spark DataFrame 之前定义的:

businessJSON = os.path.join(targetDir, 'business.json')
businessDF = sqlContext.read.json(businessJSON)

reviewsJSON = os.path.join(targetDir, 'review.json')
reviewsDF = sqlContext.read.json(reviewsJSON)

contains = udf(lambda xs, val: val in xs, BooleanType())

def selectReviews(category):
    businessesByCategory = businessDF[contains(businessDF.categories, lit(category))]
    selectedReviewsDF = reviewsDF.join(businessesByCategory,\
                                   businessesByCategory.business_id == reviewsDF.business_id)      
    return selectedReviewsDF.select("text").map(lambda x: x.text)

categories = ['category1', 'category2'] 
rdd = (sc.parallelize(cuisines)
       .map(lambda c: (c, selectReviews(c)))
       )

rdd.take(1)

我收到一条巨大的错误消息:

Py4JError                                 Traceback (most recent call last)
<ipython-input-346-051af5183a76> in <module>()
     12        )
     13 
---> 14 rdd.take(1)

/usr/local/Cellar/apache-spark/1.4.1/libexec/python/pyspark/rdd.pyc in take(self, num)
   1275 
   1276             p = range(partsScanned, min(partsScanned + numPartsToTry, totalParts))
-> 1277             res = self.context.runJob(self, takeUpToNumLeft, p, True)
   1278 
   1279             items += res

/usr/local/Cellar/apache-spark/1.4.1/libexec/python/pyspark/context.pyc in runJob(self, rdd, partitionFunc, partitions, allowLocal)
    894         # SparkContext#runJob.
    895         mappedRDD = rdd.mapPartitions(partitionFunc)
--> 896         port = self._jvm.PythonRDD.runJob(self._jsc.sc(), mappedRDD._jrdd, partitions,
    897                                           allowLocal)
    898         return list(_load_from_socket(port, mappedRDD._jrdd_deserializer))

/usr/local/Cellar/apache-spark/1.4.1/libexec/python/pyspark/rdd.pyc in _jrdd(self)
   2361         command = (self.func, profiler, self._prev_jrdd_deserializer,
   2362                    self._jrdd_deserializer)
-> 2363         pickled_cmd, bvars, env, includes = _prepare_for_python_RDD(self.ctx, command, self)
   2364         python_rdd = self.ctx._jvm.PythonRDD(self._prev_jrdd.rdd(),
   2365                                              bytearray(pickled_cmd),

 /usr/local/Cellar/apache-spark/1.4.1/libexec/python/pyspark/rdd.pyc in _prepare_for_python_RDD(sc, command, obj)
   2281     # the serialized command will be compressed by broadcast
   2282     ser = CloudPickleSerializer()
-> 2283     pickled_command = ser.dumps(command)
   2284     if len(pickled_command) > (1 << 20):  # 1M
   2285         # The broadcast will have same life cycle as created PythonRDD

 ...

/Users/igorsokolov/anaconda/lib/python2.7/pickle.pyc in save(self, obj)
    304             reduce = getattr(obj, "__reduce_ex__", None)
    305             if reduce:
--> 306                 rv = reduce(self.proto)
    307             else:
    308                 reduce = getattr(obj, "__reduce__", None)

/usr/local/Cellar/apache-spark/1.4.1/libexec/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py in __call__(self, *args)
    536         answer = self.gateway_client.send_command(command)
    537         return_value = get_return_value(answer, self.gateway_client,
--> 538                 self.target_id, self.name)
    539 
    540         for temp_arg in temp_args:

/usr/local/Cellar/apache-spark/1.4.1/libexec/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, name)
    302                 raise Py4JError(
    303                     'An error occurred while calling {0}{1}{2}. Trace:\n{3}\n'.
--> 304                     format(target_id, '.', name, value))
    305         else:
    306             raise Py4JError(

Py4JError: An error occurred while calling o96495.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:333)
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:342)
at py4j.Gateway.invoke(Gateway.java:252)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:207)
at java.lang.Thread.run(Thread.java:745)

我进行了一些调查以了解究竟是哪一行导致了这个错误，我发现得到这个错误的最少代码是:

def selectReviews(category):
    return reviewsDF.select("text")

rdd = (sc.parallelize(categories)
       .map(lambda c: (c, selectReviews(c)))
       )

rdd.take(1)

因此我得出结论，我使用了某种错误的 DataFrame，但 Spark 文档中并不清楚具体是什么。我怀疑 reviewsDF 应该分布在集群中的所有机器上，但我想因为我是使用 SqlContext 创建的，所以它应该已经在 Spark 上下文中。

提前谢谢你。

最佳答案

Spark 不可重入。具体来说，worker 不能在另一个操作或转换的步骤中执行新的 RDD 操作或转换。

当在工作节点上发生的 map 的 lambda 函数中调用 selectReviews 时会出现此问题，因为 selectReviews 需要执行 .select() 在 RDD 支持 reviewsDF 上。

解决方法是将 sc.parallelize 替换为一个简单的 for 循环或类似的，在 categories 上，在本地执行。来自 spark 的加速仍将参与每次调用 selectReviews 时发生的数据帧过滤。

关于apache-spark - 我可以在常规 Spark map 操作中使用 Spark DataFrame 吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32619570/

25

4

0

文章推荐： Kivy 在我的应用程序中没有检测到触摸输入

文章推荐： knockout.js - ES5 knockout 到 ES6 knockout

文章推荐： sql - 在具有多个条件的 SQL 中选择 IF

常规 ^ 运算符
当给定两个 bool 参数时，^ 运算符执行异或，例如 true ^ true == false true ^ false == true false ^ true == true false ^ f
groovy - 如何下载文件？ - 常规
我需要下载一个文件(例如: https://www.betaseries.com/srt/391160 )所以我在网上找到了不同的方法: def download(String remoteUrl,
math - 常规-是否可以根据现有平均值并为所得平均值指定新参数来计算平均值？
可以说，我们正在计算考试成绩的平均值：起始考试成绩：75、80、92、64、83、99、79 平均值= 572/7 = 81.714 ... 现在给出81.714，如果您不知道初始测试分数，是否可以
multithreading - 常规-线程池中的线程数
我和一个 friend 正在争论线程池中的线程数应该是处理器计数+ 1还是仅仅是处理器计数。我之所以选择处理器数量，是因为每个处理器可以分配偶数个线程，而他选择处理器数量+ 1是因为他认为这将帮助他
常规 : Closures or Methods
我已经养成了尽可能使用闭包来代替常规方法的习惯，即使我不需要访问自由变量。所以，我将使用这个: def addNumbers = { 左、右 -> 左 + 右 } ..而不是这个: def addNu
java - 常规 NoClassDefFoundError
我对 Groovy 非常陌生，我正在尝试《Groovy in Action》书中的这个示例。我有这个 fibonacci.groovy 程序，当尝试使用 java 命令运行该程序时，我收到 NoCla
android - 如何在Android中将字体粗细设置为轻巧、常规
我有 3 个 TextView 。我需要将它们的权重设置为 Light、Regular 和 Condensed。有人可以帮助我了解如何在 Android 中实现这一点吗？最佳答案在 TextVie
iphone - 直接从应用程序链接到设置/常规/位置服务
如果用户启动我的应用程序并最初选择不允许位置服务，我想通过 UIAlertMessage 提示用户重新考虑(“更新”和“不，谢谢。”)。 “不，谢谢。”这将是一个简单的取消，我希望“更新”将它们直接链
常规 'assert' : How to display the value?
如何在 groovy 中显示一个值是真还是假？我使用 Eclipse 作为我的 IDE。 assert 4 * ( 2 + 3 ) - 6 == 14 //integers only 而且我也
java - 使用Java编程安全/常规/原子寄存器
我的问题与“多处理器编程的艺术”一书有关。第4章介绍安全/常规/原子寄存器及其实现。以下是安全多读取器单写 boolean 寄存器的以下实现，该寄存器基于安全单读取器单写 boolean 寄存器，被
常规 : String to float Conversion
使用下面的代码来保存 float 的值 domainInstance.standardScore = params["standardScore"] as float 在这种情况下，我的输入是 17.
常规 : String to float Conversion
使用下面的代码来保存 float 的值 domainInstance.standardScore = params["standardScore"] as float 在这种情况下，我的输入是 17.
ios - 获取设置数据->常规->关于
在iOS的about部分中，它具有有关设备的大量信息。我和我可以访问此信息吗？我想快速获取settings -> General -> About的数据。在iOS中获得相同的价格是否可行？最佳答
c# - SimpleInjector结合了WCF和“常规”注册
我正在开发Windows服务，它将承载两件事： WCF服务用于定期作业执行的“常规” Windows服务（使用Quartz.net）因此，基本上，一个应用程序（可执行）承载这两种服务类型。这两种
mysql - 常规 mysql 表中的内连接
在mysql中，我有一个名为users的表，其中包含系统中的用户列表... id | name | surname | active ____________________________ 1
java - 常规 JDBC 设置
所以我在 Debian 服务器上设置了一个 MySQL 数据库，并且它在 phpMyAdmin 客户端上运行良好。我目前正在开发一个项目，编写一个 Java 服务器，该服务器能够通过 JDBC 连接使
Javascript 常规 exp 无法正常工作
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c# - 常规 Exp 而不是字符串拆分
前两天考试了，其中一道题是把@前面的字母换成新的名字所以在试卷中我们有 array = "toto@yahoo.com","mimi@yahoo.com".soso@yahoo.com"所以我们应该
php - 常规 exp 从字符串中获取最后一个数字
大家好如果字符串语法如下，我如何从字符串中获取数字(正数): t_def_type_id_2 t_def_type_id_22 t_def_type_id_334 所以，在第一个字符串中我想得到 1
linux - 是否有独立于平台的非阻塞方式来判断文件描述符是否是磁盘文件(常规/目录)
我正在寻找不会在内核中阻塞的文件描述符类型。我知道我可以使用 fstat(2) 但 fstat 还会给我各种元数据信息(访问时间等)，这些信息可能会阻塞任意时间(特别是在网络文件系统上)。编辑:我正

首页

博学

6Ren·AI

商城

apache-spark - 我可以在常规 Spark map 操作中使用 Spark DataFrame 吗？