- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有一个包含值的数组,我想创建它的直方图。我主要对低端号码感兴趣,想把每一个300以上的号码都收集到一个箱子里。此 bin 应与所有其他(同样宽的) bin 具有相同的宽度。我该怎么做?
注意:这个问题与这个问题有关:Defining bin width/x-axis scale in Matplotlib histogram
这是我迄今为止尝试过的:
import matplotlib.pyplot as plt
import numpy as np
def plot_histogram_01():
np.random.seed(1)
values_A = np.random.choice(np.arange(600), size=200, replace=True).tolist()
values_B = np.random.choice(np.arange(600), size=200, replace=True).tolist()
bins = [0, 25, 50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300, 600]
fig, ax = plt.subplots(figsize=(9, 5))
_, bins, patches = plt.hist([values_A, values_B], normed=1, # normed is deprecated and will be replaced by density
bins=bins,
color=['#3782CC', '#AFD5FA'],
label=['A', 'B'])
xlabels = np.array(bins[1:], dtype='|S4')
xlabels[-1] = '300+'
N_labels = len(xlabels)
plt.xlim([0, 600])
plt.xticks(25 * np.arange(N_labels) + 12.5)
ax.set_xticklabels(xlabels)
plt.yticks([])
plt.title('')
plt.setp(patches, linewidth=0)
plt.legend()
fig.tight_layout()
plt.savefig('my_plot_01.png')
plt.close()
这是结果,看起来不太好:
然后我更改了其中包含 xlim 的行:
plt.xlim([0, 325])
结果如下:
它看起来或多或少如我所愿,但现在看不到最后一个垃圾箱。我缺少哪个技巧来可视化宽度为 25 的最后一个 bin?
最佳答案
Numpy 有一个方便的函数来处理这个问题:np.clip
.尽管名称听起来像什么,但它不会删除 值,它只是将它们限制在您指定的范围内。基本上,它内嵌了 Artem 的“肮脏黑客”。您可以将值保持原样,但在 hist
调用中,只需将数组包装在 np.clip
调用中,就像这样
plt.hist(np.clip(values_A, bins[0], bins[-1]), bins=bins)
这更好,原因有很多:
它方式更快——至少对于大量元素而言。 Numpy 在 C 级别完成其工作。对 python 列表进行操作(如在 Artem 的列表理解中)对每个元素都有很多开销。基本上,如果你可以选择使用 numpy,你应该这样做。
您可以在需要的地方进行操作,从而减少代码出错的机会。
您不需要保留数组的第二个副本,这样可以减少内存使用量(这一行除外)并进一步减少出错的机会。
使用 bins[0], bins[-1]
而不是硬编码这些值可以减少再次出错的机会,因为您可以更改 位置的 bin bins
已定义;您无需记住在对 clip
或其他任何地方的调用中更改它们。
所以把它们放在一起,就像在 OP 中一样:
import matplotlib.pyplot as plt
import numpy as np
def plot_histogram_01():
np.random.seed(1)
values_A = np.random.choice(np.arange(600), size=200, replace=True)
values_B = np.random.choice(np.arange(600), size=200, replace=True)
bins = np.arange(0,350,25)
fig, ax = plt.subplots(figsize=(9, 5))
_, bins, patches = plt.hist([np.clip(values_A, bins[0], bins[-1]),
np.clip(values_B, bins[0], bins[-1])],
# normed=1, # normed is deprecated; replace with density
density=True,
bins=bins, color=['#3782CC', '#AFD5FA'], label=['A', 'B'])
xlabels = bins[1:].astype(str)
xlabels[-1] += '+'
N_labels = len(xlabels)
plt.xlim([0, 325])
plt.xticks(25 * np.arange(N_labels) + 12.5)
ax.set_xticklabels(xlabels)
plt.yticks([])
plt.title('')
plt.setp(patches, linewidth=0)
plt.legend(loc='upper left')
fig.tight_layout()
plot_histogram_01()
关于python - Matplotlib 直方图与高值收集箱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26218704/
我的表中有以下记录: Name Status Price Product 1 Active 110 Product 2
我是一名优秀的程序员,十分优秀!