gpt4 book ai didi

apache-spark - 如何在公司代理后面使用 Spark-Shell 解析外部包?

转载 作者:行者123 更新时间:2023-12-02 07:06:50 29 4
gpt4 key购买 nike

我想在公司代理后面使用外部包运行spark-shell。不幸的是,通过 --packages 选项传递的外部包未解析。

例如,运行时

bin/spark-shell --packages datastax:spark-cassandra-connector:1.5.0-s_2.10

cassandra 连接器包未解析(卡在最后一行):

Ivy Default Cache set to: /root/.ivy2/cache
The jars for the packages stored in: /root/.ivy2/jars
:: loading settings :: url = jar:file:/opt/spark/lib/spark-assembly-1.6.1-hadoop2.6.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
datastax#spark-cassandra-connector added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
confs: [default]

一段时间后,连接超时,并包含如下错误消息:

:::: ERRORS
Server access error at url https://repo1.maven.org/maven2/datastax/spark-cassandra-connector/1.5.0-s_2.10/spark-cassandra-connector-1.5.0-s_2.10.pom (java.net.ConnectException: Connection timed out)

当我使用公司代理停用 VPN 时,程序包会立即得到解析并下载。

到目前为止我尝试过的:

将代理公开为环境变量:

export http_proxy=<proxyHost>:<proxyPort>
export https_proxy=<proxyHost>:<proxyPort>
export JAVA_OPTS="-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>"
export ANT_OPTS="-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>"

使用额外的java选项运行spark-shell:

bin/spark-shell --conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>" --conf "spark.executor.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>" --packages datastax:spark-cassandra-connector:1.6.0-M1-s_2.10

我还缺少其他一些配置可能性吗?

最佳答案

找到正确的设置:

bin/spark-shell --conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort> -Dhttps.proxyHost=<proxyHost> -Dhttps.proxyPort=<proxyPort>" --packages <somePackage>

http 和 https 代理都必须设置为额外的驱动程序选项。 JAVA_OPTS 似乎没有做任何事情。

关于apache-spark - 如何在公司代理后面使用 Spark-Shell 解析外部包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36676395/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com