gpt4 book ai didi

hive - 为 hive 中的所有列计数 NULL

转载 作者:行者123 更新时间:2023-12-02 04:47:06 26 4
gpt4 key购买 nike

我有一个包含 300 列(混合数据类型)的配置单元表,我想检查所有列中有多少记录具有 NULL 值。能不能简单点。

col: 1     2     3     4     ...... 300
A 4 null 78 ...... 300 columns
B null 70 90 ...... 300 columns
c 4 null 78 ...... 300 columns
g null 72 90 ...... 300 columns
t 4 98 null ...... 300 columns
null null 70 90 ...... 300 columns
A 4 null 78 ...... 300 columns
B null 70 90 ...... 300 columns

结果应该是:
col 1: 12.5% (1/8 is null)
col 2: 50%
col 3: 37.5
col 4: 12.5%
.
.
col 300: x%

非常感谢

最佳答案

不确定这是最好的方法,但这是我将如何解决这个问题(我将提供一个 10 列的示例)。在 python 运行中,

>>> for i in xrange(1,11):
... print "col{0}".format(i)
...

它会打印
col1
col2
.
.
.
col10

将其复制并粘贴到 sublime text 。突出显示列 (CTRL+A) 并键入 CTRL+SHIFT+L ,然后点击向左箭头。现在您应该有 10 个(或在您的情况下为 300 个)游标。类型
, sum(case when

然后跳过 col
is null then 1 else 0) / count(*)

enter image description here

它应该是这样的。然后在上面放一个 select 语句,在下面放一个 from

关于hive - 为 hive 中的所有列计数 NULL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32057041/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com