gpt4 book ai didi

在没有 key 的情况下加入两个相等的数据集

转载 作者:可可西里 更新时间:2023-11-01 15:16:54 26 4
gpt4 key购买 nike

我想使用 Hadoop 连接两个具有相同记录数但不带行号的文件。例如A.txt

a xx
b y
c z

和B.txt

1 r
2 s
3 d

加入后我需要拥有

a xx 1 r
b y 2 s
3 d c z

这是 IOW 完美的并排连接。我不知道如何在 Hadoop 中执行此操作,我相信我需要对两个文件进行初始传递以附加行号?

利用 Pig 和/或 map/reduce 技巧的各种组合的答案都很好。

最佳答案

这篇文章给了你一个提示:SO POST about special input format

输入格式可以生成行号作为键,而不是给出字节偏移量。这样你就可以简单地使用一个单元映射器(只发出键值)并在 reducer 中进行连接。这可能看起来很难,但只需覆盖输入格式中的几个函数即可。

关于在没有 key 的情况下加入两个相等的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19095853/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com