python - Numpy 2d 直方图总和不为 1

转载作者：太空宇宙更新时间：2023-11-03 15:09:16

25

4

我认为我误解了 Numpy 的 histogram2d range 和 bin 参数。

这是一个按照我的预期工作的示例:

d, x_r, y_r = np.histogram2d(
    [0, 1, 3], 
    [0, 1, 3], 
    bins=[3, 3], 
    range=[[0, 3], [0, 3]], 
    normed=True)

d
array([[ 0.33333333,  0.        ,  0.        ],
       [ 0.        ,  0.33333333,  0.        ],
       [ 0.        ,  0.        ,  0.33333333]])
np.sum(d)
1.0

这就是我的事情开始崩溃的地方(增加垃圾箱数量):

d, x_r, y_r = np.histogram2d(
    [0, 1, 3], 
    [0, 1, 3], 
    bins=[3, 6], 
    range=[[0, 3], [0, 3]], 
    normed=True)
d
array([[ 0.66666667,  0.,  0.        ,  0.,  0., 0.        ],
       [ 0.        ,  0.,  0.66666667,  0.,  0., 0.        ],
       [ 0.        ,  0.,  0.        ,  0.,  0., 0.66666667]])
np.sum(d)
2.0

我本来期望:

d
array([[ 0.33333333,  0.,  0.        ,  0.,  0., 0.        ],
       [ 0.        ,  0.,  0.33333333,  0.,  0., 0.        ],
       [ 0.        ,  0.,  0.        ,  0.,  0., 0.33333333]])

如果您能帮助理解这一点并获得我正在寻找的结果，我将不胜感激。谢谢。

最佳答案

np.histogram2d 中的规范化参数标准化如下

bin_count / sample_count / bin_area

这些需要一段时间才能理解，而source code我认为写得不太好(变量名选择不当)

bin_count 是直方图 bin 中的值
sample_count 是所有 bin_count 的总和
bin_area 是特定 bin 的区域

我们可以在这两种情况下定义上述 3 个变量，无需使用规范参数，然后看看发生了什么:

案例1

bin_count, binsx, binsy = np.histogram2d( [0,1,3], [0,1,3], 
    bins=[3,3], range=[[0,3],[0,3]], normed=False)

如果您查看 binsx 和 binsy，您将看到每个 bin 的面积为 1

print(binsx, binsy)
#In [54]: print (binsx, binsy)
#(array([ 0.,  1.,  2.,  3.]), array([ 0.,  1.,  2.,  3.]))

因此，我们让 bin_area=1 和二维直方图归一化看起来像

bin_count / bin_count.sum() / bin_area

#array([[ 0.33333333,  0.        ,  0.        ],
       #[ 0.        ,  0.33333333,  0.        ],
       #[ 0.        ,  0.        ,  0.33333333]])

案例2

bin_count, binsx, binsy = np.histogram2d( [0,1,3], [0,1,3], 
    bins=[3,6], range=[[0,3],[0,3]], normed=False)
print(binsx, binsy)
#(array([ 0.,  1.,  2.,  3.]), array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ]))

现在您可以看到您的 bin_area 减少了 2 倍(因为您将 y-bin 的数量增加了 2 倍)

因此，我们让bin_area=.5，并且归一化历史看起来像

bin_count / bin_count.sum() / bin_area

#array([[ 0.66666667,  0.        ,  0.        ,  0.        ,  0.        ,
#         0.        ],
#       [ 0.        ,  0.        ,  0.66666667,  0.        ,  0.        ,
#         0.        ],
#       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
#         0.66666667]])

一般情况

一般来说，您可以拥有可变大小的容器，因此 bin_area 可能是一个变量。考虑一些非偶数箱:

bin_count, binsx, binsy = np.histogram2d( [0,1,3], [0,1,3], 
    bins=([0.,1.5,3.],[0, .6, 1.7,3.]), 
    range=[[0,3],[0,3]], normed=False)

在本例中，显式计算每个 bin 的面积:

bin_area = np.array( [ [(x1 -x0)* (y1-y0) 
    for y1,y0 in zip(binsy[1:], binsy[:-1])] 
        for x1,x0 in zip(binsx[1:], binsx[:-1]) ] )

print(bin_area)
#array([[ 0.9 ,  1.65,  1.95],
#       [ 0.9 ,  1.65,  1.95]])

bin_count / bin_count.sum() / bin_area
#array([[ 0.37037037,  0.2020202 ,  0.        ],
#       [ 0.        ,  0.        ,  0.17094017]])

确实，如果我们将规范参数设置为 True

normed_bin_count, binsx, binsy = np.histogram2d( [0,1,3], [0,1,3], 
    bins=([0.,1.5,3.],[0, .6, 1.7,3.]), 
    range=[[0,3],[0,3]], normed=True)
print(normed_bin_count)
#array([[ 0.37037037,  0.2020202 ,  0.        ],
#       [ 0.        ,  0.        ,  0.17094017]])

关于python - Numpy 2d 直方图总和不为 1，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44369799/

25

4

0

文章推荐： ssl - "man in the middle"攻击 https 可以读取所有通信吗？

文章推荐： c# - 如何在 C# 中手动验证自签名证书？

文章推荐： c# - 在重新启动 dotnet 错误之前等待文件更改

MySQL 总和 + 总和
我基本上有三个表: hunt_c_usershunt_c_collected_eggshunt_c_achievements 我目前只使用 hunt_c_users 和 hunt_c_collecte
SQL 总和
我已经计算了不同表中计数的总和。这会执行两次，每个 performanceID 一次。现在我想得到两个总和的总和。下面是我目前做的两个总和的代码: SELECT SUM((COUNT (Bo
Jquery 总和
我有一个对 2 个值求和的脚本。我计划添加更多值(value)，但首先我需要让它发挥作用。人们告诉我给他们 NUMBER 值，所以我这样做了，但现在它甚至没有给出输出。 base = 0; $("#F
MongoDB - 总和
我正在尝试计算在我们的数据库中跟踪的花费总额。每个订单文档包含一个字段“total_price” 我正在尝试使用以下代码: db.orders.aggregate({ $group: {
基于在另一个表中查找代码和值的 Excel 总和
给定 Excel 2013(或更高版本)中的 2 个命名表: tbl发票 ID InvRef Total 1 I/123 45 2 I/234
特殊表格之间的 VBA 总和
希望你们一切都好。我来这里是因为我从今天早上开始就试图解决一个问题，我再也受不了了。这就是上下文:我有一个 excel 工作簿，其中有不同的工作表，其中包含不同国家/地区的不同商业计划。我的目标是制
sql - 在查询结果中插入行(总和)
我有一份报告显示客户订购的产品及其价格: CompanyA Product 7 14.99 CompanyA Product 3 45.95 CompanyA Prod
python - Redis时间序列-总和
我使用此python客户端: https://github.com/ryananguiano/python-redis-timeseries 如何汇总所有匹配？ ts = TimeSeries(cli
excel - 总和/计数公式自动调整插入的行
希望创建一个总和和计数公式，该公式将自动调整以适应范围内插入的新行。例如，如果我在单元格 D55 中有公式 =SUM(D17:D54)。每次我在该范围内插入新行时，我都需要更改公式的顶部范围来解释它
python - 聚合具有相同日期的列(总和)
所以，我需要聚合日期相同的行。到目前为止，我的代码返回以下内容: date value source 0 2018-04-08 15:52:26.1
javascript - 将表中的数值相加(总和)
我有数字输入数量约为 30 我需要将它们全部汇总到一个字段我拥有的在下面查看:
具有特定数量条目的列的 MYSQL 总和
您好，我正在尝试根据以下数据计算过去三个月中出现不止一次的不同帐户 ID 的数量；我想要 2 作为查询结果，因为 test1@gmail.com 和 test2@gmail.com 出现超过 1 次。
php - 如何从一个表中选择与另一表中的差异(总和)？
我有两个带有以下字段的表: ... orders.orderID orders.orderValue 和 payments.orderID payments.payVal 在 payments.pay
来自别名未知列的 MySQL 总和
我想按 image_gallery 和 video_gallery 两列的 DESC 进行排序。 SELECT b.*, c.title as category, (S
mysql - 如何从别名查找mysql中的总计(总和)？
实际上我的原始数据库为 SELECT sum(data1,data2) as database_value,sum(data3,data4) as database_not_value from t
javascript - JavaScript 总和
我试图获取三个分数中每一个的值并将它们相加并显示在“总计:”中。我的问题是，我不知道如何做到这一点，以便每次其中一个分数值发生变化时，相应的总分值也会随之变化。我可以在某处调用“onchange”来
按第一个分组的元组列表中元组的第二个和第三个元素的 Python 总和
如何获得按第一个值分组的元组列表中第二个和第三个值的总和？即: list_of_tuples = [(1, 3, 1), (1, 2, 4), (2, 1, 0), (2, 2, 0)] expec
python - 总和、平均和其他
我正在尝试将我的列表中的整数转换为列表的总和和平均值，并说明任何低于冰点 F<32 的温度。每当我尝试获取总和或平均值时，我都会收到错误提示“+: 'int' 和 'str' 不支持的操作数类型”。我
ios - NSDecimalNumber 总和
在我的 ios 项目中，我使用了两个实体 (CoreData):具有一对多关系的 Person 和 Gifts 我知道如何计算给一个人的礼物总和: NSDecimalNumber *orderSum=
SQLITE:显示每个类别的总计(总和)
我有两个表(输入和类别): CREATE TABLE categories ( iId INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, sNam

首页

博学

6Ren·AI

商城

python - Numpy 2d 直方图总和不为 1

案例1

案例2

一般情况