gpt4 book ai didi

hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件

转载 作者:行者123 更新时间:2023-12-02 21:35:25 25 4
gpt4 key购买 nike

我有一个场景,其中有一个非常大的文件,并说第1行记录可能依赖第1000行数据,而第1行和第1000行可以是单独的缓存的一部分。现在,我对框架的理解是记录读取器将向映射器返回一个键,值对,而每个k,v对将彼此独立。此外,由于文件已分为拆分并且我也希望这样做(即splittable false是没有选择),无论如何我可以编写自己的记录读取器,映射器或reducer来处理吗?

依赖性就像-

第1行:a,b,c,d,e,f

第2行:x,y,z,p,q,r

现在,第2行中的x需要与第1行中的d一起使用,以获得所需的输出。

谢谢。

最佳答案

我认为您需要的是实现 reducer侧加入。在这里,您可以看到对其的更好解释:http://hadooped.blogspot.mx/2013/09/reduce-side-joins-in-java-map-reduce.html

两个相关值都必须以同一化简器(由键和分区器定义)结尾,并且应该将它们分组在一起( GroupingComparator ),并且可以使用 SecondSort 来对分组值进行排序。

关于hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32693241/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com