gpt4 book ai didi

sorting - Hadoop 在 Reduce Side Join 中按值排序

转载 作者:可可西里 更新时间:2023-11-01 14:57:48 24 4
gpt4 key购买 nike

所以我只是在进行一些 Hadoop 培训,以了解这片土地的情况,并且我正在尝试进行 reduce side join,我已经在运行,除了次要排序。

所以基础知识:

两个文件
一个有球员,球队,薪水
另一个有球员,球队,本垒打

输出应该是球队,球员,薪水,本垒打

纽约大都会队应该被划分到一个文件中,而所有其他蹩脚的球队应该被划分到另一个文件中。

这些文件中的每一个都应按球队排序,其次按球员薪水排序。

我正在使用团队 key playerID 加入并且有效,但我不知道我将如何按薪水排序,因为两个文件中只有一个有它。

这是一项可能的任务还是只能通过 map 端连接来完成?

最佳答案

对于这个“纽约大都会队应该被分成一个文件,而所有其他蹩脚的球队应该被分成另一个文件。”

您可以使用自定义分区程序并为纽约大都会队返回 0,为其他人队返回 1。

关于工资排序,你是对的——使用 map side join 是高效的。如果数据集不是很大,您可以通过在 reducer 输入上循环两次来在 reducer 中排序。首先,您必须构建一些内存集合来存储排序后的数据,然后在第二个循环中您可以发出数据。但它在较大的数据集上效率非常低 - 特别是如果每​​个团队都有太多球员,它会很慢,并且可能会遇到内存不足的问题。

关于sorting - Hadoop 在 Reduce Side Join 中按值排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34324041/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com