gpt4 book ai didi

apache-spark - pyspark 中的 --files 选项不起作用

转载 作者:行者123 更新时间:2023-12-04 02:09:05 25 4
gpt4 key购买 nike

我试过 sc.addFile选项(工作没有任何问题)和 --files命令行选项(失败)。

运行 1:spark_distro.py

from pyspark import SparkContext, SparkConf
from pyspark import SparkFiles

def import_my_special_package(x):
from external_package import external
ext = external()
return ext.fun(x)

conf = SparkConf().setAppName("Using External Library")
sc = SparkContext(conf=conf)
sc.addFile("/local-path/readme.txt")
with open(SparkFiles.get('readme.txt')) as test_file:
lines = [line.strip() for line in test_file]
print(lines)
int_rdd = sc.parallelize([1, 2, 4, 3])
mod_rdd = sorted(int_rdd.filter(lambda z: z%2 == 1).map(lambda x:import_my_special_package(x)))

外部包:external_package.py

class external(object):
def __init__(self):
pass
def fun(self,input):
return input*2

readme.txt

MY TEXT HERE

spark-submit 命令

spark-submit \
--master yarn-client \
--py-files /path to local codelib/external_package.py \
/local-pgm-path/spark_distro.py \
1000

输出:按预期工作

['MY TEXT HERE']

但是,如果我尝试使用 --files (而不是 sc.addFile)选项从命令行传递文件(readme.txt),它就会失败。
像下面。

运行 2:spark_distro.py

from pyspark import SparkContext, SparkConf
from pyspark import SparkFiles

def import_my_special_package(x):
from external_package import external
ext = external()
return ext.fun(x)

conf = SparkConf().setAppName("Using External Library")
sc = SparkContext(conf=conf)
with open(SparkFiles.get('readme.txt')) as test_file:
lines = [line.strip() for line in test_file]
print(lines)
int_rdd = sc.parallelize([1, 2, 4, 3])
mod_rdd = sorted(int_rdd.filter(lambda z: z%2 == 1).map(lambda x: import_my_special_package(x)))

external_package.py 和上面一样

spark提交

spark-submit \
--master yarn-client \
--py-files /path to local codelib/external_package.py \
--files /local-path/readme.txt#readme.txt \
/local-pgm-path/spark_distro.py \
1000

输出:

Traceback (most recent call last):
File "/local-pgm-path/spark_distro.py", line 31, in <module>
with open(SparkFiles.get('readme.txt')) as test_file:
IOError: [Errno 2] No such file or directory: u'/tmp/spark-42dff0d7-c52f-46a8-8323-08bccb412cd6/userFiles-8bd16297-1291-4a37-b080-bbc3836cb512/readme.txt'

sc.addFile--file用于相同目的?有人可以分享你的想法。

最佳答案

我终于弄清楚了这个问题,这确实是一个非常微妙的问题。

正如怀疑的那样,两个选项( sc.addFile--files )是 不是 等价的,这是(无可否认非常巧妙地)在文档中暗示(强调):

addFile(path, recursive=False)
Add a file to be downloaded with this Spark job on every node.

--files FILES
Comma-separated list of files to be placed in the working directory of each executor.



用简单的英语,而文件添加了 sc.addFile对执行程序和驱动程序都可用,文件添加了 --files仅适用于执行人;因此,当试图从驱动程序访问它们时(就像 OP 中的情况),我们得到一个 No such file or directory错误。

让我们确认一下(删除 OP 中所有不相关的 --py-files1000 内容):

test_fail.py :

from pyspark import SparkContext, SparkConf
from pyspark import SparkFiles

conf = SparkConf().setAppName("Use External File")
sc = SparkContext(conf=conf)
with open(SparkFiles.get('readme.txt')) as test_file:
lines = [line.strip() for line in test_file]
print(lines)

测试:

spark-submit --master yarn \
--deploy-mode client \
--files /home/ctsats/readme.txt \
/home/ctsats/scripts/SO/test_fail.py

结果:
[...]
17/11/10 15:05:39 INFO yarn.Client: Uploading resource file:/home/ctsats/readme.txt -> hdfs://host-hd-01.corp.nodalpoint.com:8020/user/ctsats/.sparkStaging/application_1507295423401_0047/readme.txt
[...]
Traceback (most recent call last):
File "/home/ctsats/scripts/SO/test_fail.py", line 6, in <module>
with open(SparkFiles.get('readme.txt')) as test_file:
IOError: [Errno 2] No such file or directory: u'/tmp/spark-8715b4d9-a23b-4002-a1f0-63a1e9d3e00e/userFiles-60053a41-472e-4844-a587-6d10ed769e1a/readme.txt'

在上面的脚本中 test_fail.py ,就是请求访问文件 readme.txt的驱动程序;让我们更改脚本,以便为执行程序请求访问权限 ( test_success.py ):

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("Use External File")
sc = SparkContext(conf=conf)

lines = sc.textFile("readme.txt") # run in the executors
print(lines.collect())

测试:

spark-submit --master yarn \
--deploy-mode client \
--files /home/ctsats/readme.txt \
/home/ctsats/scripts/SO/test_success.py

结果:
[...]
17/11/10 15:16:05 INFO yarn.Client: Uploading resource file:/home/ctsats/readme.txt -> hdfs://host-hd-01.corp.nodalpoint.com:8020/user/ctsats/.sparkStaging/application_1507295423401_0049/readme.txt
[...]
[u'MY TEXT HERE']

还要注意,这里我们不需要 SparkFiles.get - 该文件易于访问。

如上所述, sc.addFile将在两种情况下都有效,即当驱动程序或执行程序请求访问时(已测试但未在此处显示)。

关于命令行选项的顺序:正如我所说的 elsewhere , 所有与 Spark 相关的参数都必须在要执行的脚本之前;可以说, --files的相对顺序和 --py-files无关紧要(留作练习)。

两者都经过测试 Spark 1.6.0 & 2.2.0 .

更新 (评论后):似乎我的 fs.defaultFS设置也指向 HDFS:

$ hdfs getconf -confKey fs.defaultFS
hdfs://host-hd-01.corp.nodalpoint.com:8020

但是让我关注这里的森林(而不是树木),并解释 为什么整个讨论仅具有学术意义 :

使用 --files 传递要处理的文件flag 是不好的做法;事后看来,我现在明白为什么我在网上几乎找不到有用的引用资料——可能没有人在实践中使用它,而且有充分的理由。

(请注意,我不是在谈论 --py-files ,它扮演着不同的合法角色。)

由于 Spark 是一个分布式处理框架,运行在一个集群和一个分布式文件系统 (HDFS) 上,最好的办法是让所有要处理的文件都已经进入 HDFS - 期间。 Spark 处理文件的“自然”位置是 HDFS,而不是本地 FS - 尽管有一些 玩具 使用本地 FS 的示例仅用于演示目的。更重要的是,如果您想在将来的某个时间将部署模式更改为 cluster ,您会发现集群在默认情况下对本地路径和文件一无所知,这是理所当然的......

关于apache-spark - pyspark 中的 --files 选项不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47187533/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com