python - 函数为通过的 pandaDF 列制作具有正态曲线的直方图-6ren

python - 函数为通过的 pandaDF 列制作具有正态曲线的直方图

转载作者：行者123 更新时间：2023-12-01 09:17:47

24

4

我想创建一个函数，它接受 df 和 col 并返回带有正态曲线和一些标签的直方图。我可以使用和自定义我认为适合 future 数据的东西(如果有任何建议使其更加可定制，我将不胜感激)。这是为kaggle titanic训练集制作的，如果需要，请从here下载。此函数对于没有 NaN 值的列运行良好。列 Age 有 NaN，我认为这是引发错误的原因。我尝试使用 Error when plotting DataFrame containing NaN with Pandas 0.12.0 and Matplotlib 1.3.1 on Python 3.3.2 忽略 NaN其中一个解决方案建议使用 subplot，但它对我不起作用；接受的解决方案是降级matplotlib(我的版本是'2.1.2'，python是3.6.4)。这个pylab histogram get rid of nan使用了一种有趣的方法，但我无法将其应用于我的案例。如何删除 NaN ？这个功能可以自定义吗？不是主要问题 - 我可以巧妙地做诸如圆形平均值/标准差之类的事情，添加更多信息吗？

import numpy as np
import pandas as pd
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
mydf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))

def df_col_hist (df,col, n_bins):

    fig, ax = plt.subplots()
    n, bins, patches = ax.hist(df[col], n_bins, normed=1)

    y = mlab.normpdf(bins, df[col].mean(), df[col].std())
    ax.plot(bins, y, '--')

    ax.set_xlabel (df[col].name)
    ax.set_ylabel('Probability density')
    ax.set_title(f'Histogram of {df[col].name}: $\mu={df[col].mean()}$, $\sigma={df[col].std()}$')

    fig.tight_layout()
    plt.show()

df_col_hist (train_data, 'Fare', 100)
#Works Fine, Tidy little histogram. 

df_col_hist (train_data, 'Age', 100)
#ValueError: max must be larger than min in range parameter.

    ..\Anaconda3\lib\site-packages\numpy\core\_methods.py:29: RuntimeWarning: invalid value encountered in reduce
  return umr_minimum(a, axis, None, out, keepdims)
..\Anaconda3\lib\site-packages\numpy\core\_methods.py:26: RuntimeWarning: invalid value encountered in reduce
  return umr_maximum(a, axis, None, out, keepdims)
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-75-c81b76c1f28e> in <module>()
----> 1 df_col_hist (train_data, 'Age', 100)

<ipython-input-70-1cf1645db595> in df_col_hist(df, col, n_bins)
      2 
      3     fig, ax = plt.subplots()
----> 4     n, bins, patches = ax.hist(df[col], n_bins, normed=1)
      5 
      6     y = mlab.normpdf(bins, df[col].mean(), df[col].std())

~\Anaconda3\lib\site-packages\matplotlib\__init__.py in inner(ax, *args, **kwargs)
   1715                     warnings.warn(msg % (label_namer, func.__name__),
   1716                                   RuntimeWarning, stacklevel=2)
-> 1717             return func(ax, *args, **kwargs)
   1718         pre_doc = inner.__doc__
   1719         if pre_doc is None:

~\Anaconda3\lib\site-packages\matplotlib\axes\_axes.py in hist(***failed resolving arguments***)
   6163             # this will automatically overwrite bins,
   6164             # so that each histogram uses the same bins
-> 6165             m, bins = np.histogram(x[i], bins, weights=w[i], **hist_kwargs)
   6166             m = m.astype(float)  # causes problems later if it's an int
   6167             if mlast is None:

~\Anaconda3\lib\site-packages\numpy\lib\function_base.py in histogram(a, bins, range, normed, weights, density)
    665     if first_edge > last_edge:
    666         raise ValueError(
--> 667             'max must be larger than min in range parameter.')
    668     if not np.all(np.isfinite([first_edge, last_edge])):
    669         raise ValueError(

最佳答案

您对 normpdf 的调用是错误的，因为它需要 x 值数组作为第一个参数，而不是 bin 的数量。但无论如何，mlab.normpdf 已被弃用。

也就是说，我建议使用 scipy 中的 norm.pdf:

from scipy.stats import norm

s = np.std(df[col])
m = df[col].mean()
x = np.linspace(m - 3*s, m + 3*s, 51)
y = norm.pdf(x, loc=m)   # additionally there's a `scale` parameter for norming against whatever in y-direction

ax.plot(x, y, '--', label='probability density function')

PS:为了将 nan 放入 pandas 数据框中，您有

df[col].dropna()

即:

n, bins, patches = ax.hist(df[col].dropna(), n_bins, normed=1)

关于python - 函数为通过的 pandaDF 列制作具有正态曲线的直方图，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51082483/

24

4

0

文章推荐： python - 添加每组缺失的小时数时无法从重复轴重新索引

文章推荐： python - 在 python 中处理 Slack 按钮操作 POST 请求数据

文章推荐： python - 从网站抓取分页链接的网页抓取问题

文章推荐： python - 检查列表中的值是否位于 numpy 数组的相应行中

python - 绘制国债 yield 曲线，如何使用 matplotlib 叠加两条 yield 曲线
我正在尝试创建 treasury yield curve 的图表比较两个不同日期的汇率。我很难将两条曲线组合起来并创建一个干净的图形。我的问题:如何将两条 yield 曲线绘制在一起， yield
用于随机森林分类的 ROC 曲线
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
背景图像上的 CSS 曲线
我的设计师给我设计了这个设计，但我不知道如何最好地处理图像上方和下方的曲线。我考虑过 clip-path 但不知道如何 flex 它。如果可以的话，我不想使用图像。最佳答案您可以使用 borde
javascript - Canvas 曲线
我正在使用 Canvas 中的笔触和路径来制作两条线，我希望它们像波浪效果一样弯曲。而不是在 Photoshop 中创建实际图像来实现此目的。谁能帮忙得到如下图所示的曲线？我还想在末端实现圆 An
c++ - 曲线/路径骨架二值图像处理
我正在尝试开发一种可以处理图像骨架的路径/曲线的代码。我想要一个来自两点之间骨架的点 vector 。这段代码加了点就结束了，没找到解决办法。 #include "opencv2/highgui/
iphone - 如何在MKMapView上用MKOverlayView绘制圆弧/曲线
现在需要帮助。我可以用MKPolyline和MKPolylineView画线，但是如何在MKMapView上的两个坐标之间画弧线或曲线呢？非常感谢。最佳答案在回答问题之前，重要的是要提到 MKOv
python - 绘制多类问题的 ROC 曲线
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线，取消显示曲线波动的 sklearn 示例。我
r - 从数据框中手动创建 ROC 曲线
我有以下概念问题，我无法理解。以下是调查数据示例，其中我有一个时间列，指示某人需要多长时间才能回答某个问题。现在，我感兴趣的是清洁量将如何根据此阈值发生变化，即如果我增加阈值会发生什么，如果我降低
c - 误报概率图和 ROC 曲线
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表？如何确定误报和命中的数量？一个例子是很有用。最佳答案它很简单。将所有真正 (H0) 值存
r - 从随机森林分类中绘制 ROC 曲线
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效，但我认为我绘制了错误的数据，因为生成的绘图只有一个点(准确性)。这是我使用的代码: set.seed(55) data.controls <
r - 使用插入符号中的提升从两种不同的算法绘制 ROC 曲线
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
classification - 过度拟合和 ROC 曲线
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合？我看到如果它的 AUC 太高(例如 98%)可能会过度拟合，但这也可能意味着分类器非常好。有没有办法区分这两种情况？最佳答案简短的回答:
带箭头的 JavaFX 线/曲线
我正在 JavaFX 中创建一个图形，它应该由有向边连接。最好是双三次曲线。有谁知道如何添加箭头？箭头当然应该根据曲线的末端进行旋转。这是一个没有箭头的简单示例: import javafx.ap
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 曲线 R 下的阴影面积
我试图在曲线下方绘制阴影区域，但阴影区域位于曲线上方。谁能告诉我我的代码有什么问题？ x=seq(0,30) y1=exp(-0.1*x) plot(x,y1,type="l",lwd=2,col="
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 绘制引导插入符号模型的 ROC 曲线
我有一个如下所示的模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <
pyspark 提取 ROC 曲线？
有没有办法从pyspark中的Spark ML获取ROC曲线上的点？在文档中，我看到了一个 Scala 的例子，但不是 python:https://spark.apache.org/docs/2.1
python - 如何绘制局部离群因子算法的 ROC 曲线？
我正在尝试使用Local Outlier Factor (LOF)算法，并想绘制 ROC 曲线。问题是，scikit-learn 提供的库不会为每个预测生成分数。那么，有什么办法可以解决这个问题吗？
c# - GDI+曲线 "overflowing"
我目前正在使用 GDI+ 绘制折线图，并使用 Graphics.DrawCurve 来平滑线条。问题是曲线并不总是与我输入的点匹配，这使得曲线在某些点上超出了图形框架，如下所示(红色是 Graph

首页

博学

6Ren·AI

商城

python - 函数为通过的 pandaDF 列制作具有正态曲线的直方图