gpt4 book ai didi

python-3.x - spark-submit 无法检测到 pip 中安装的模数

转载 作者:行者123 更新时间:2023-12-04 03:03:31 24 4
gpt4 key购买 nike

我有一个 python 代码,它具有以下 3rd 方依赖项:

import boto3
from warcio.archiveiterator import ArchiveIterator
from warcio.recordloader import ArchiveLoadFailed
import requests
import botocore
from requests_file import FileAdapter
....

我已经使用 安装了依赖项 pip ,并通过命令 确保它已正确安装 pip 列表 .然后,当我尝试将作业提交给 spark 时,我收到以下错误:
ImportError: No module named 'boto3'

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.api.python.PairwiseRDD.compute(PythonRDD.scala:395)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

没有命名模块的问题不仅发生在“boto3”上,也发生在其他模块上。

我试过 以下内容 :
  • Added SparkContext.addPyFile(".zip 文件")
  • 使用提交 Spark --py 文件
  • 重新安装 pip
  • 确保 path env variables export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH并安装了 pip install py4j
  • 使用 python 代替 spark-submit

  • 软件信息:
  • Python 版本:3.4.3
  • 星火版本:2.2.0
  • 在 EMR-AWS 上运行:Linux 版本 2017.09
  • 最佳答案

    做之前spark-submit试试去python shell并尝试导入模块。
    还要检查哪个 python shell (检查 python 路径)默认打开。

    如果您能够在 python shell 中成功导入这些模块(与您尝试在 spark-submit 中使用的相同 python 版本),请检查以下内容:

    您以哪种方式提交申请?试试standalone或者如果在 yarn 上尝试 client模式。
    也可以尝试添加 export PYSPARK_PYTHON=(your python path)

    关于python-3.x - spark-submit 无法检测到 pip 中安装的模数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46734072/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com