gpt4 book ai didi

hadoop - Mapreduce多图和化简

转载 作者:行者123 更新时间:2023-12-02 21:49:26 25 4
gpt4 key购买 nike

我有csv文件的数据如下

lat,lng
18.1234,77.3443
18.345,77.335
18.356,77.345

所以基本上包含纬度和经度,每个CSV文件最大为1mb,因此我需要根据CSV的第一条记录和第二条记录计算与纬度和经度之间的距离。
i.e 18.1234, 77.3443 and 18.345, 77.335.

但是从mapper一次只能读取一行,因此我正在考虑在行之间添加delimeter('|'),因此上述CSV文件记录将变为一行,并输入Mapper
Key->Filename
values-> All csv records as one line (all records seprated by delimetr) as text.

filename 18.1234,77.3443|18.345,77.335|18.356,77.345....

在Reducer中,我将按测距法拆分并计算后续记录之间的距离[第一和第二坐标]。

因此,如果我有30个CSV文件,我希望30个映射器和30个reducer处理该CSV文件。
我也需要将这些数据存储在MySql中。例如纬度,经度,距离

最佳答案

如果每个csv文件小于默认的块大小,只需获取当前映射器的ID并将其作为键发出即可。

我相信您可以从映射器的配置中使用conf.get("mapred.tip.id")获得此ID。

关于hadoop - Mapreduce多图和化简,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22299537/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com