gpt4 book ai didi

hadoop - Hadoop Hive按类别分组

转载 作者:行者123 更新时间:2023-12-02 21:48:20 25 4
gpt4 key购买 nike

民间,

我们对Hadoop Hive有一个要求。

基本上我们有以下格式的数据。

客户名称,产品名称,价格

Test,prod1,10
Test,prod2,30
Test,prod3,20


Test1,prod1,20
Test1,prod2,30
Test1,prod2,30


Test2,prod1,50
Test2,prod2,40
Test2,prod2,10

我们需要从上面找到前2位客户[条件(他们产品总和的价格落在前2位]

例如在上面的示例中,我们需要记录Test1 sum(price)= 20 + 30 + 30 = 80
Test2总和(价格)= 50 + 40 + 10 = 100

测试客户不符合条件,因为总价为60。

基本上是前2位客户的客户及其产品列表(如果总和(价格)更高,则表明他们符合条件)

预期的输出。 (测试客户的记录不应出现)
 Test1,prod1,20
Test1,prod2,30
Test1,prod2,30


Test2,prod1,50
Test2,prod2,40
Test2,prod2,10

如何为此编写HIVE查询。

最佳答案

我不确定您拥有的配置单元版本,但是我假设我们不能使用IN()
您将需要创建一个临时表来容纳匹配的客户。

CREATE TABLE tempp 
AS SELECT customer, sum(price) as v
FROM mytable group by customer ORDER BY v DESC LIMIT 2;

该临时表将包含以下行:
Test2   100.0
Test1 80.0

然后做一个左半连接以获得匹配
SELECT a.* FROM mytable a LEFT SEMI JOIN tempp t ON (a.customer = t.customer)

根据表的输出:
Test1   prod1   20
Test1 prod2 30
Test1 prod2 30
Test2 prod1 50
Test2 prod2 40
Test2 prod2 10

关于hadoop - Hadoop Hive按类别分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23277622/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com