gpt4 book ai didi

python - Seaborn:Violinplot 遇到变量太多的困难?

转载 作者:行者123 更新时间:2023-12-02 03:15:13 25 4
gpt4 key购买 nike

我想使用 seaborn 通过 violinplots 可视化我的整个 Pandas 数据框,我认为我已经进行了必要的更正,以便为我的数据框拥有的 270 个变量生成一个大图。

但是,无论我做什么, fiddle 图都只显示每个变量的内部迷你箱线图(如另一个问题 here 所描述),而不是它们的 kde:

fig, ax = plt.subplots(figsize=(50,5))
ax.set_ylim(-6, 6)

a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);

plt.savefig('massive_violinplot.png', figsize=(50,5), dpi=220)

enter image description here

(为裁剪图道歉,整个事情太大而无法发布)

而下面的代码,使用相同的 pd.Dataframe,但只显示前六个变量,显示正确:

fig, ax = plt.subplots(figsize=(10,5))
ax.set_ylim(-6, 6)

a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm.iloc[:,:6]), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);

plt.savefig('massive_violinplot.png', figsize=(10,5), dpi=220)

enter image description here

我怎样才能得到所有变量的图表,如上图所示,并用适当的 fiddle 图显示它们的 kde?

最佳答案

这与变量的数量或图的大小无关,而是与变量分布的巨大差异有关。我现在无法访问您的数据,所以我将用一个编造的数据集来说明它。您可以跟随您的数据集,选择分散度较高的三个变量和分散度较小的三个变量。作为色散测量,您可以使用方差甚至数据范围(如果您没有疯狂的长尾)或其他不同的东西,我不确定哪个更好。

rs = np.random.RandomState(42)
data = rs.randn(100, 6)
data[:, :3] *= 20
df = pd.DataFrame(data)

看看如果我们用公共(public)轴绘制密度以便它们可以直接比较会发生什么。

df.plot(kind='kde', subplots=True, layout=(3, 2), sharex=True, sharey=True)
plt.tight_layout()

Density with common axes

这与您在 seaborn fiddle 情节中看到的大致相同,但当然是换位了。

sns.violinplot(x='variable', y='value', data=pd.melt(df))

Default seaborn violin plot

这通常非常适合比较变量,因为您可以将宽度差异视为密度差异。不幸的是,具有更多分散性的变量的 fiddle 非常窄,您根本看不到宽度并且您失去了任何形状感。另一方面,离散度较小的变量看起来太短(实际上在您的数据集中,其中一些只是水平线)。

对于第一个问题,您可以通过使用 scale='width' 让 fiddle 使用所有可用的水平空间,但您无法再比较变量之间的密度。峰宽相同但密度不同。

sns.violinplot(x='variable', y='value', data=pd.melt(df), scale='width')

Seaborn violin plot with scale='width'

顺便说一下,这是 matplotlib 的 fiddle 图默认情况下所做的。

plt.violinplot(df.T)

Matplotlib default violin plot.

对于第二个问题,我认为你唯一的选择是以某种方式规范化或标准化变量。

sns.violinplot(x='variable', y='value', data=pd.melt((df - df.mean()) / df.std()))

Standardized violin plot

现在您可以更清楚地分别查看每个变量(它们有多少模式、它们的偏斜程度、尾部有多长...),但您既不能比较变量的比例,也不能比较变量之间的离散度。

这个故事的寓意是您无法一次看到所有内容,您必须根据要在数据中查找的内容进行挑选。

关于python - Seaborn:Violinplot 遇到变量太多的困难?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56350531/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com