gpt4 book ai didi

python - Hadoop 流式处理 Python 多输入文件 单映射器

转载 作者:可可西里 更新时间:2023-11-01 16:22:58 24 4
gpt4 key购买 nike

我有一个映射器。

for line in sys.stdin:
#if line is from file1
#process it based on some_arbitrary_logic
#emit k,v

#if line is from file2
#process it based on another_arbitrary_logic
#emit k, v

我需要通过 hadoop 流 API 调用此映射器,其中包含 -input file1 和另一个 -input file2

我如何实现这一点?我如何知道 hadoop 流式传输给我的 STDIN 中的哪一行属于哪个文件?

更新

File1

Fruit, Vendor, Cost

Oranges, FreshOrangesCompany, 50
Apples, FreshAppleCompany, 100

File2

Vendor, Location, NumberOfOffices

FreshAppleCompany, NewZealand, 45
FreshOrangeCompany, FijiIslands, 100

我需要做的是打印出他们在多少个办公室出售橙子。

橘子 100

因此这两个文件都需要INPUT 到映射器。

最佳答案

os.environ["map.input.file"] 映射器中的 python 代码应该给出映射器正在处理的 block 的文件名。

关于python - Hadoop 流式处理 Python 多输入文件 单映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20658452/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com