hadoop - hive agg要求分组的列-6ren

hadoop - hive agg要求分组的列

转载作者：行者123 更新时间：2023-12-02 21:24:06

24

4

我有一个基本查询(用模糊的名称重写)，我不明白为什么配置单元要求将case语句中的t2.description列添加到分组依据。我将它们安抚并放入其中，但是当然我会为每一行的该列获取空值...如果我取出case语句并查询原始数据，则会得到所有可爱的描述。只有当我想在case语句中添加一些逻辑时，它才会失败。我是Hive的新手，并且了解它不是ANSI sql，但我没有想到它会如此挑剔。

select
t1.columnid               as column_id,
(case when t2.description in ('description1','description2','description3') then t2.description else null end) as label_description

from table1 t1
left outer join table2 t2 on (t1.inresult = t2.inresult)

group by
t1.columnid

最佳答案

基于Hive的SQL解析器显示的错误日志，通常很难理解实际问题。这里的问题是您选择2列，但仅将GROUP BY应用于一列。要使此查询可执行，您必须执行以下操作之一:

按列1和列2分组

select t1.columnid as column_id, (case when t2.description in ('description1','description2','description3') then t2.description else null end) as label_description from table1 t1 left outer join table2 t2 on (t1.inresult = t2.inresult) GROUP BY t1.columnid, (case when t2.description in ('description1','description2','description3') then t2.description else null end);

不要使用GROUP BY语句

select t1.columnid as column_id, (case when t2.description in ('description1','description2','description3') then t2.description else null end) as label_description from table1 t1 left outer join table2 t2 on (t1.inresult = t2.inresult)

将聚合函数应用于第2列

select t1.columnid as column_id, MIN(case when t2.description in ('description1','description2','description3') then t2.description else null end) as label_description from table1 t1 left outer join table2 t2 on (t1.inresult = t2.inresult) group by t1.columnid

对于配置单元，如果您使用的是GROUP BY，那么您选择的所有列都必须在GROUP BY语句中，或者包装在应用的汇总语句中，例如MAX，MIN或SUM。

关于hadoop - hive agg要求分组的列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36583540/

24

4

0

文章推荐： hadoop - 将行转换为 pig 中的列

文章推荐： Docker 用于非代码部署？

文章推荐： ubuntu - Wasabi API 通过 HTTPS 而不是 HTTP

文章推荐： hadoop - 无法在hadoop下将pentaho数据集成客户端与Hbase连接

elasticsearch - “filter and aggs”和 “filter in aggs”有什么区别
我有两种方法来汇总数据。首先，我过滤mysql数据并进行汇总其次，i aggs将数据过滤为aggs。如下: 我发现了不同的结果，我不知道为什么。有人可以解释吗？最佳答案从Docs By d
python pandas, DF.groupby().agg(), agg() 中的列引用
在一个具体问题上，假设我有一个 DataFrame DF word tag count 0 a S 30 1 the S 20 2 a T
pandas groupby agg function column/dtype error(PANDA GROUPAS BY AGG Function列/dtype错误)
我正在使用Python进行数据分析，但我遇到了部分CH的问题。9(数据聚合和分组操作)部分，介绍“使用函数分组”。。具体地说，如果我使用GroupBy对象方法或Numpy定义的函数，一切都会正常工作。
python - df.groupby(...).agg(set) 与 df.groupby(...).agg(lambda x : set(x)) 相比产生不同的结果
接听this question原来 df.groupby(...).agg(set) 和 df.groupby(...).agg(lambda x: set(x)) 正在产生不同的结果。数据: df
python - 字符串系列的最大 agg
如何在这样的字符串列中执行最大值？ dataframe = pandas.DataFrame.from_dict( { "DEP
elasticsearch - “aggs”查询的输出结果不正确
我有一个查询，用于查询给定日期时间窗口(即2017-02-17T15:00:00.000和2017-02-17T16:00:00.000之间)中的条目数。执行此查询时，我得到的结果不正确(最好说结果是
elasticsearch aggs 返回错误的计数
我正在尝试进行一些聚合查询并遇到一些问题。 GET /my_index/_search { "size" : 0, "aggs":{ "group_by":{ "terms": {
python - Pandas agg 根据数据类型定义指标
对于pandas agg，有没有办法根据数据类型指定聚合函数？例如，对象类型的所有列都获得“第一”，所有 float 获得“平均值”，等等？以避免必须输入所有列及其各自的聚合函数。示例数据: imp
scala - Spark agg 为多列收集单个列表
这是我当前的代码: pipe_exec_df_final_grouped = pipe_exec_df_final.groupBy("application_id").agg(collect_list
Python - Pandas groupby agg
我有一个简单的 dataframe (df)，如下所示: index Job Person 1 j1 Cathy 2 j2 Mark 3 j3 Cathy 4
elasticsearch - Elasticsearch-术语中的buckets_path agg
我正在尝试对术语(count_bucket)进行AVG计数，但是出现错误: "buckets_path must reference either a number value or a single
elasticsearch - 响应中未保留的 agg 名称的排序
我正在执行弹性查询并使用 REST 调用读取 java 代码中的响应。当我阅读响应时，字段的顺序 - 200、204、4xx、5xx 不会按照响应中的顺序返回。在下面找到示例请求 GET appl
ElasticSearch Max Agg 在文档的列表属性中的最低值
我希望对文档下的属性值进行 Max 聚合，该属性是复杂对象(键和值)的列表。这是我的数据: [{ "id" : "1", "listItems" : [
elasticsearch 使用 aggs 过滤数组数据
我使用 Elasticsearch 来存储我的生物数据。我尝试使用过滤后的 aggs 进行查询，但返回的数据不是我想要的。问题来自这样一个事实，即我为每个样本都有一个“d_”属性，它是一个数组。我
elasticsearch - 如何使用过滤器查询优化 Elasticsearch aggs
当我尝试运行此查询时，elasticsearch无法回答，并且发生大量缓存逐出(与字段缓存有关)。我不想在此查询中缓存任何字段，因为这是一个分析查询，我每天只运行一次。有什么办法可以在不使用字段缓存
python - DataFrame agg 作为一个系列
我想将 DataFrame.agg 的输出转换为一个系列，其中索引是列名称和 agg 函数名称的组合。看我有 In [132]: df = pd.DataFrame({ ...:
python - 如何将 agg 应用于具有根据级别不同功能的多索引的数据框？
我想根据索引的第二级对具有多重索引的数据帧应用不同的函数。例如，对于数据框: In [4]: df = pd.DataFrame({'a': [1,2,6,7],'b': [7,1,4,5]}, i
python - Pandas .agg 函数有哪些？
假设我有这样的代码: meanData = all_data.groupby(['Id'])[features].agg('mean') 这按'Id' 值对数据进行分组，选择所需的特征，并通过计算的'
python - groupby.agg 中的本福德定律测试函数
下面是我的数据框的一个小样本，它有 25000 奇数行长: In [58]: df Out[58]: Send_Agent Send_Amount 0 ADR000264 361
python - 在 agg 函数中聚合具有一个属性的多列
假设我有一个 pandas dataFrame (data_stores) 类似于以下内容: store| item1 | item2 | item3 ------------------------

首页

博学

6Ren·AI

商城

hadoop - hive agg要求分组的列