gpt4 book ai didi

python - 使用笔记本时将jar添加到pyspark

转载 作者:太空狗 更新时间:2023-10-30 01:14:12 25 4
gpt4 key购买 nike

我正在尝试将 mongodb hadoop 与 spark 集成,但无法弄清楚如何让 IPython 笔记本访问这些 jar。

这是我想做的:

# set up parameters for reading from MongoDB via Hadoop input format
config = {"mongo.input.uri": "mongodb://localhost:27017/db.collection"}
inputFormatClassName = "com.mongodb.hadoop.MongoInputFormat"

# these values worked but others might as well
keyClassName = "org.apache.hadoop.io.Text"
valueClassName = "org.apache.hadoop.io.MapWritable"

# Do some reading from mongo
items = sc.newAPIHadoopRDD(inputFormatClassName, keyClassName, valueClassName, None, None, config)

当我使用以下命令在 pyspark 中启动这段代码时,它工作正常:

spark-1.4.1/bin/pyspark --jars 'mongo-hadoop-core-1.4.0.jar,mongo-java-driver-3.0.2.jar'

mongo-hadoop-core-1.4.0.jarmongo-java-driver-2.10.1.jar 允许从 java 使用 mongodb。但是,当我这样做时:

IPYTHON_OPTS="notebook" spark-1.4.1/bin/pyspark --jars 'mongo-hadoop-core-1.4.0.jar,mongo-java-driver-3.0.2.jar'

jar 不再可用,我收到以下错误:

java.lang.ClassNotFoundException: com.mongodb.hadoop.MongoInputFormat

有谁知道如何让 IPython 笔记本中的 spark 可以使用 jars?我很确定这不是 mongo 特有的,所以也许有人已经在使用笔记本时成功地将 jar 添加到类路径中?

最佳答案

非常相似,如果这有帮助,请告诉我: https://issues.apache.org/jira/browse/SPARK-5185

关于python - 使用笔记本时将jar添加到pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31677345/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com