gpt4 book ai didi

join - 如何通过在hadoop中合并两个文件在hdfs中创建文件

转载 作者:行者123 更新时间:2023-12-02 21:51:01 25 4
gpt4 key购买 nike

我想在配置单元中结合两个表的列创建一个表。

所以我想通过包括两个文件的列在hdfs中创建一个文件。

file1: a  b  c are the 3 columns 

file2: x y z are the 3 columns

i want to create a file3: a b c x y z that has 6 columns.

这该怎么做 ?

我尝试了许多命令,但是它将数据追加到列中,但是我希望两个文件中的所有列都存在于单个文件中。

谢谢。

最佳答案

我认为最简单的方法是将id列添加到两个表中(您需要一些列来进行联接),然后在id列上联接表:

CREATE TABLE joined AS 
SELECT first.id, first.a, first.b, first.c, second.x, second.y, second.z
FROM first JOIN second ON (first.id = second.id)

关于join - 如何通过在hadoop中合并两个文件在hdfs中创建文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21044757/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com