gpt4 book ai didi

python - 使用 round() 对连续值进行分箱会创建工件

转载 作者:太空狗 更新时间:2023-10-29 21:44:54 24 4
gpt4 key购买 nike

在 Python 中,假设我有连续变量 xy,它们的值介于 0 和 1 之间(为了更容易)。我的假设一直是,如果我想将这些变量转换为有序值,并且 bin 为 0,0.01,0.02,...,0.98,0.99,1,可以简单地将原始值四舍五入到第二位数字。出于某种原因,当我这样做时,它会留下伪影。

让我来说明这个问题(但请注意,我的问题不是如何获得正确的图,而是如何进行正确的装箱)。首先,这些是重现问题所需的唯一模块:

import numpy as np
import matplotlib.pyplot as plt

现在,假设我们连续生成如下数据(其他数据生成过程也会出现同样的问题):

# number of points drawn from Gaussian dists.:
n = 100000
x = np.random.normal(0, 2, n)
y = np.random.normal(4, 5, n)

# normalizing x and y to bound them between 0 and 1
# (it's way easier to illustrate the problem this way)
x = (x - min(x))/(max(x) - min(x))
y = (y - min(y))/(max(y) - min(y))

然后,让我们将 xy 转换为上述区间中的序数,只需应用一些舍入即可。然后,让我们将结果存储到 x by y 矩阵中,以便绘制其热图用于说明目的:

# matrix that will represent the bins. Notice that the
# desired bins are every 0.01, from 0 to 1, so 100 bins:
mtx = np.zeros([100,100])
for i in range(n):
# my idea was that I could roughly get the bins by
# simply rounding to the 2nd decimal point:
posX = round(x[i], 2)
posY = round(y[i], 2)
mtx[int(posX*100)-1, int(posY*100)-1] += 1

我希望上面的方法有效,但是当我绘制矩阵 mtx 的内容时,我实际上得到了奇怪的伪像。代码:

# notice, however, the weird close-to-empty lines at
# 0.30 and 0.59 of both x and y. This happens regardless
# of how I generate x and y. Regardless of distributions
# or of number of points (even if it obviously becomes
# impossible to see if there are too few points):
plt.matshow(mtx, cmap=plt.cm.jet)
plt.show(block=False)

给我:

enter image description here

最奇怪的是,无论我使用哪个分布生成 xy 或者我为 RNG 使用哪个种子,我总是得到相同的水平和垂直xy 的 0.30 和 0.59 处几乎是空线,这些线通常与显示点集中的线直接平行(如图所示)。

当我从那个矩阵按值打印到控制台时,我实际上可以确认与那些近空行对应的那些确实为零或非常接近于零 - 与它们的相邻点不同。

我的问题可以更恰本地分为两部分:

  1. 为什么会发生上述情况?我真的很想了解在那个简单的代码中到底是什么导致了这样的问题。

  2. 通过 y 矩阵 生成 x 的更好方法是什么,该矩阵根据切割点 0,0.01 对值进行分箱,0.02,...,0.98,0.99,1 而不留下上面的工件?

如果想轻松地直接将上面使用的整个示例代码集中在一 block ,这里是链接: https://www.codepile.net/pile/VLAq4kLp

注意:我不想找到正确的绘图方式。我想找到 myeself 生成表示的“binned 值矩阵”的正确方法是上面的图。我知道还有其他方法可以在没有工件的情况下完成热图绘制,例如使用 plt.matshow(mtx, cmap=plt.cm.jet); plt.show(block=False)plt.hist2d(x, y, bins=100)。我要问的是我的矩阵生成本身的问题在哪里,它创建了那些接近零的元素。

最佳答案

使用 np.histogram2d(x,y, bins=100) 可以很容易地解决这个问题。

此答案的其余部分将显示手动算法失败的地方:

从数字上考虑

0.56*100 == 56.00000000000001    -> int(0.56*100) == 56
0.57*100 == 56.99999999999999 -> int(0.57*100) == 56
0.58*100 == 57.99999999999999 -> int(0.58*100) == 57
0.59*100 == 59.00000000000000 -> int(0.59*100) == 59

这样数字 58 就不会出现在您的索引中,而数字 56 会出现两倍的频率(为了均匀分布)。

您可以先相乘然后截断为整数。另请注意,最后一个 bin 需要关闭,以便将值 1 添加到索引为 99 的 bin。

mtx = np.zeros([100,100])
for i in range(n):
posX = int(x[i]*100)
posY = int(y[i]*100)
if posX == 100:
posX = 99
if posY == 100:
posY = 99
mtx[posX, posY] += 1

这将通过边缘定义 bin,即第一个 bin 的范围从 0 到 1 等。在调用 imshow/matshow 时,您需要通过设置范围来考虑这一点。

plt.matshow(mtx, cmap=plt.cm.jet, extent=(0,100,0,100))

enter image description here

关于python - 使用 round() 对连续值进行分箱会创建工件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54577495/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com