gpt4 book ai didi

python - Hadoop/Python : Loading a reference file to use in the mapper

转载 作者:行者123 更新时间:2023-12-02 21:44:31 25 4
gpt4 key购买 nike

我想用 Hadoop 在 Python 中处理 CSV 文件,但我需要引用另一个包含查找信息的文件。

我读到我可以使用 -files 命令行选项创建指向本地文件的符号链接(symbolic link),但是如何在我的 Python 映射器文件中引用该文件?

最佳答案

在 Amazon EMR 中创建此作业后,我可以将文件复制到 S3 并使用 -cacheFile 直接引用它。选项:

bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在 Python 中,我可以打开这个文件:
with open("reference") as reference_file:
references = reference_file.read().splitlines()

关于python - Hadoop/Python : Loading a reference file to use in the mapper,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26497983/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com