scala - Spark如何与CPython互操作-6ren

scala - Spark如何与CPython互操作

转载作者：行者123 更新时间：2023-12-04 00:44:06

26

4

我有一个用 scala 编写的 Akka 系统需要调用一些Python代码，依赖 Pandas和 Numpy ，所以我不能只使用 Jython。我注意到 Spark 在其工作节点上使用 CPython，所以我很好奇它是如何执行 Python 代码的，以及该代码是否以某种可重用的形式存在。

最佳答案

PySpark 架构在此处描述 https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals .

PySpark internals

正如@Holden 所说，Spark 使用 py4j 从 python 访问 JVM 中的 Java 对象。但这只是一种情况 - 当驱动程序是用 python 编写时(图的左边部分)

另一种情况(图右侧)——Spark Worker 启动 Python 进程并将序列化的 Java 对象发送给 Python 程序进行处理，并接收输出。 Java 对象被序列化为 pickle 格式——因此 python 可以读取它们。

看起来你正在寻找的是后一种情况。这里有一些指向 Spark 的 scala 核心的链接，可能对您入门很有用:

Pyrolite为 Python 的 pickle 协议(protocol)提供 Java 接口(interface)的库 - Spark 使用它来将 Java 对象序列化为 pickle 格式。例如，访问 PairRDD 的 Key、Value 对的 Key 部分需要这种转换。

启动 python 进程并对其进行迭代的 Scala 代码:api/python/PythonRDD.scala

选择代码的 SerDeser 实用程序:api/python/SerDeUtil.scala

Python 端:python/pyspark/worker.py

关于scala - Spark如何与CPython互操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30684982/

26

4

0

文章推荐： elixir - "Cannot begin test transaction because we are already inside one"

文章推荐： r - 如何导出交互式 rgl 3D 绘图以共享或发布？

文章推荐： sharepoint - 合并和查询多个列表

文章推荐： rx-java - 将分组的可观测值的排放收集到一个列表中

cpython - 完成后如何以编程方式告诉 CPython 解释器进入交互模式？
如果您使用 -i 选项调用 cpython 解释器，它会在完成任何命令或脚本后进入交互模式。有没有办法在程序中让解释器执行此操作，即使它没有给出 -i？明显的用例是在异常情况发生时通过交互式检查状态进
cpython - 在 Ubuntu 16.04 上编译 cpython 代码
我是按照官方cpython代码link here上的说明操作的.我做了一个 hg update 3.5 然后做了以下。 sudo apt-get build-dep python3.5 但它抛出了一个
python - 用 Rust 编写的 PyPy + Cpython 扩展 (rust-cpython)
我打算尝试使用 PyPy。但是我用 rust-cpython 编写的扩展(.so 文件)在使用 pypy3 执行时无法加载: ImportError: No module named 'pkg.lib
AttributeError: module 'virtualenv.create.via_global_ref.builtin.cpython.mac_os' has no attribute 'CPython2macOsArmFramework'(AttributeError：模块‘virtualenv.create.via_global_ref.builtin.cpython.mac_os’没有属性‘CPython2macOsArmFramFrame’)
我试图配置预提交挂接，在运行预提交运行--所有文件时，我收到以下错误：。我已尝试升级pip以解决此问题pip安装--升级pip，但我收到另一个错误：。我尝试检查PIP和PIP3的版本，但现在我也收到了
python - 在android上嵌入纯python(Cpython)
我想为 android 创建电影下载应用程序以供学习。为了方便开发，我想使用 youtube-dl 作为下载器后端。所以我想将 Cpython 运行时和 ffmpeg(用于转换电影格式)嵌入到 A
python - CPython 内存堆损坏问题
我有一个 Windows fatal exception: code 0xc0000374 - 是的，有多处理(等待但是......)。 Google 表示异常代码 0xc0000374 表示堆损坏。
python - CPython 类型的实现简介
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
python - CPython:动态模块未定义模块导出函数错误
我刚刚成功编译了 C++ 类的 Python 包装器。但是，当我尝试将模块加载到 Python 时(通过 import cell)，我收到以下消息: ImportError: dynamic modu
c++ - CPython 中的静态全局变量不安全吗？
在我用 python 函数包装的一个 C++ 源文件中，有人包含了以下内容: namespace some_namespace { static double some_double; } flo
python - CPython 中的中间指令格式是什么？
例如，0 STORE_NAME 0 (sys) 是import sys 指令的一部分。这种指令格式有任何文档吗？更何况，这种格式是Python的标准吗？还是具体实现？最佳答案即Python byt
python - CPython 中的字符串排序是如何优化的？
我有这个故意不高效的代码: def suffix_array_alternative_naive(s): return [rank for suffix, rank in sorted((s[
python - CPython 扩展的基于关键字的文档
应该如何编写 CPython 扩展，以便 pydoc 提及参数名称而不是 (...)？我关注了 official python tutorial about extending Python ，甚至
python - CPython 安装失败
我正在尝试在运行 Raspbian Jessie 的 Raspberry Pi 上从源代码构建和安装 python 3.6.2。以下是构建过程的过程: $ ./configure --enable-o
python - CPython 内部结构
GAE 有各种限制，其中之一是最大的可分配内存块大小为 1Mb(现在是 10 倍，但这并没有改变问题)。这一限制意味着不能在 list() 中放置超过一定数量的项目，因为 CPython 会尝试为元素
python - CPython 的垃圾收集是否进行压缩？
我和一个 friend 聊天，比较语言，他提到 Java 的自动内存管理优于 Python，因为 Java 有压缩，而 Python 没有——因此对于长时间运行的服务器，Python 是一个糟糕的选择
python - CPython 的解释器如何知道打印最后一个表达式的结果？
我一直在深入研究源代码，以找出打印结果的时间点。例如: >>> x = 1 >>> x + 2 3 以上两条语句编译为: 1 0 LOAD_CONST
python - CPython 中的字符串标识比较
我最近在生产系统中发现了一个潜在的错误，其中两个字符串使用身份运算符进行比较，例如: if val[2] is not 's': 我想这无论如何都会经常起作用，因为据我所知，CPython 将短的不可
python - CPython 中的字符串乘法是如何实现的？
Python 允许字符串乘以整数: >>> 'hello' * 5 'hellohellohellohellohello' 这是如何在 CPython 中实现的？我特别感谢指向源代码的指针； the
python - CPython 使用什么解析器生成器？
我正在阅读 this page在文档中，并注意到它说 This is the full Python grammar, as it is read by the parser generator an
python - CPython 实现的内部文档
我目前正在制作 CPython 3.0 Python 解释器的嵌入式系统端口，我对任何引用资料或文档特别感兴趣，这些引用资料或文档提供有关版本 3.0 的代码设计和结构的详细信息，甚至是任何2.x 版

首页

博学

6Ren·AI

商城

scala - Spark如何与CPython互操作