- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用 seaborn 通过 violinplots 可视化我的整个 Pandas 数据框,我认为我已经进行了必要的更正,以便为我的数据框拥有的 270 个变量生成一个大图。
但是,无论我做什么, fiddle 图都只显示每个变量的内部迷你箱线图(如另一个问题 here 所描述),而不是它们的 kde:
fig, ax = plt.subplots(figsize=(50,5))
ax.set_ylim(-6, 6)
a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);
plt.savefig('massive_violinplot.png', figsize=(50,5), dpi=220)
(为裁剪图道歉,整个事情太大而无法发布)
而下面的代码,使用相同的 pd.Dataframe
,但只显示前六个变量,显示正确:
fig, ax = plt.subplots(figsize=(10,5))
ax.set_ylim(-6, 6)
a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm.iloc[:,:6]), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);
plt.savefig('massive_violinplot.png', figsize=(10,5), dpi=220)
我怎样才能得到所有变量的图表,如上图所示,并用适当的 fiddle 图显示它们的 kde?
最佳答案
这与变量的数量或图的大小无关,而是与变量分布的巨大差异有关。我现在无法访问您的数据,所以我将用一个编造的数据集来说明它。您可以跟随您的数据集,选择分散度较高的三个变量和分散度较小的三个变量。作为色散测量,您可以使用方差甚至数据范围(如果您没有疯狂的长尾)或其他不同的东西,我不确定哪个更好。
rs = np.random.RandomState(42)
data = rs.randn(100, 6)
data[:, :3] *= 20
df = pd.DataFrame(data)
看看如果我们用公共(public)轴绘制密度以便它们可以直接比较会发生什么。
df.plot(kind='kde', subplots=True, layout=(3, 2), sharex=True, sharey=True)
plt.tight_layout()
这与您在 seaborn fiddle 情节中看到的大致相同,但当然是换位了。
sns.violinplot(x='variable', y='value', data=pd.melt(df))
这通常非常适合比较变量,因为您可以将宽度差异视为密度差异。不幸的是,具有更多分散性的变量的 fiddle 非常窄,您根本看不到宽度并且您失去了任何形状感。另一方面,离散度较小的变量看起来太短(实际上在您的数据集中,其中一些只是水平线)。
对于第一个问题,您可以通过使用 scale='width'
让 fiddle 使用所有可用的水平空间,但您无法再比较变量之间的密度。峰宽相同但密度不同。
sns.violinplot(x='variable', y='value', data=pd.melt(df), scale='width')
顺便说一下,这是 matplotlib 的 fiddle 图默认情况下所做的。
plt.violinplot(df.T)
对于第二个问题,我认为你唯一的选择是以某种方式规范化或标准化变量。
sns.violinplot(x='variable', y='value', data=pd.melt((df - df.mean()) / df.std()))
现在您可以更清楚地分别查看每个变量(它们有多少模式、它们的偏斜程度、尾部有多长...),但您既不能比较变量的比例,也不能比较变量之间的离散度。
这个故事的寓意是您无法一次看到所有内容,您必须根据要在数据中查找的内容进行挑选。
关于python - Seaborn:Violinplot 遇到变量太多的困难?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56350531/
如何从 seaborn 生成的热图中隐藏颜色条 import numpy as np; np.random.seed(0) import seaborn as sns; sns.set_theme()
我正在尝试使用 seaborn 制作热图,但被困在更改特定值的颜色。假设值 0 应该是白色,值 1 应该是灰色,然后使用 cmap 提供的调色板。 试图使用面具,但感到困惑。 import matpl
我想改变散点的大小。 这些都不起作用: sns.relplot(x='columnx', y='columny', hue='cluster', data=df) sns.relplot(x='col
这个问题在这里已经有了答案: What is y axis in seaborn distplot? (3 个答案) 关闭 3 年前。 我正在使用以下语句绘制分布图: a = sns.distplo
我注意到 sns.barplot 使用标准错误作为误差条默认 1 。有办法把它改成SD吗? ax = sns.barplot(x="day", y="tip", data=tips, ci=???)
向 seaborn FacetGrid 中的每个直方图添加表示平均值(或其他集中趋势度量)的点和可变性度量(例如,标准偏差或置信区间)的最佳方法是什么? 结果应该类似于显示的图 here ,但在每个
我正在尝试使用 sns.histplot() 而不是 sns.distplot() 因为我在 colab 中收到以下消息: FutureWarning: distplot is a deprecate
我想绘制 3 个水平条形图,标签作为 y 轴,数据作为 x 轴,我希望每个图都是不同的颜色,并有某种类型的注释,例如星号,这取决于关于数据中某列所表示的重要性,例如: dat = pd.DataFra
根据 seaborn 文档 here seaborn.distplot()已被弃用,向前支持的图是:seaborn.displot()和 seaborn.histplot() . 但是,当我尝试使用
为了使 seaborn.pairplot() 正常工作,在 jupyter notebook 中执行了以下步骤。 /usr/local/lib/python2.7/site-packages/matp
使用 pandas 数据框绘制混淆矩阵时 y 轴两端被切一半? 这就是我得到的: 我使用了这里的代码How can I plot a confusion matrix?使用 pandas 数据框: i
您好,我刚刚为 seaborn 热图创建了自定义 cmap,但是当我想使用它时,它没有显示正确的颜色。我已经一步一步完成了: import seaborn as sns import numpy as
亲爱的,我正在尝试将 kaggle 教程代码应用于 Iris 数据集。 不幸的是,当我执行图表的代码时,我只能看到这个输出而看不到任何图表: matplotlib.axes._subplots.Axe
这个问题在这里已经有了答案: Seaborn plots in a loop (6 个答案) How to plot in multiple subplots (12 个答案) 关闭 1 年前。 我
我正在尝试在 python 中使用 seaborn 绘制直方图。但它给我的只是一个空白数字。 这是我专栏的describe(): 代码: plt.subplots(figsize=(7,7)) sns
如何在seaborn.lineplot中分别设置标记和线条的透明度? 我有一组点,我想画一条连接所有点的线图。我希望线条比标记更透明。如何做到这一点? 这是我的目标: 这是我的代码: import m
我正在使用 seaborn 库在 python 中绘制热图。数据框包含一些缺失值 (NaN)。我希望与这些字段对应的热图单元格是白色的(默认情况下)并且还用字符串 NA 进行注释。但是,如果我看对了,
如何对这个图进行排序以从大到小显示?我尝试使用 sort_values 但不起作用 plt.figure(figsize=(15,8)) sns.countplot(x='arrival_date_m
我的目标是在使用 seaborn 绘制的图上的 y = 0 上绘制一条水平红线:sns.lmplot由 col= 分割或 row= . import numpy as np, seaborn as s
我正在使用seaborn pairplot绘制我的数据点不同维度的散点图。但是,我希望数据点的标记具有与数据点的维度之一相对应的大小。我有以下代码: markersize = 1000* my_dat
我是一名优秀的程序员,十分优秀!