作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 BQ 的人有一个建议:我认为如果有一个内置函数可以返回列的熵,那将非常有用。一列离散类别或值相对容易。想法?这是否已经存在,但我没有找到它?
最佳答案
简单的解决方案如下 - 它计算列中不同值的数量,然后以 2 为底取对数 - 这给出了编码所有不同值所需的位数,即列熵。
SELECT LOG2(COUNT(DISTINCT column)) FROM Table
year
表中列
natality
的香农熵:
select -sum(p*log2(p)) from (
select ratio_to_report(c) over() p from (
select year, count(*) c from publicdata:samples.natality group by 1))
select discrete_weight, count(*) from (
select
cast((weight_pounds - min_weight) * 100 / range_weight as integer)
as discrete_weight
from [publicdata:samples.natality] a cross join
(select
min(weight_pounds) as min_weight,
max(weight_pounds) - min(weight_pounds) as range_weight
from [publicdata:samples.natality]) b) group by 1
关于google-bigquery - 大查询 : compute entropy of a column,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29310168/
我是一名优秀的程序员,十分优秀!