python - 如何从朴素贝叶斯分类器中的概率密度函数计算概率？-6ren

python - 如何从朴素贝叶斯分类器中的概率密度函数计算概率？

转载作者：太空宇宙更新时间：2023-11-04 04:05:43

24

4

我正在实现高斯朴素贝叶斯算法:

# importing modules
import pandas as pd
import numpy as np

# create an empty dataframe
data = pd.DataFrame()
# create our target variable
data["gender"] = ["male","male","male","male",
                  "female","female","female","female"]
# create our feature variables
data["height"] = [6,5.92,5.58,5.92,5,5.5,5.42,5.75]
data["weight"] = [180,190,170,165,100,150,130,150]
data["foot_size"] = [12,11,12,10,6,8,7,9]
# view the data
print(data)

# create an empty dataframe
person = pd.DataFrame()
# create some feature values for this single row
person["height"] = [6]
person["weight"] = [130]
person["foot_size"] = [8]
# view the data
print(person)

# Priors can be calculated either constants or probability distributions.
# In our example, this is simply the probability of being a gender.
# calculating prior now
# number of males
n_male = data["gender"][data["gender"] == "male"].count()
# number of females
n_female = data["gender"][data["gender"] == "female"].count()
# total people
total_ppl = data["gender"].count()
print ("Male count =",n_male,"and Female count =",n_female)
print ("Total number of persons =",total_ppl)

# number of males divided by the total rows
p_male = n_male / total_ppl
# number of females divided by the total rows
p_female = n_female / total_ppl
print ("Probability of MALE =",p_male,"and FEMALE =",p_female)

# group the data by gender and calculate the means of each feature
data_means = data.groupby("gender").mean()
# view the values
data_means

# group the data by gender and calculate the variance of each feature
data_variance = data.groupby("gender").var()
# view the values
data_variance

data_variance = data.groupby("gender").var()
data_variance["foot_size"][data_variance.index == "male"].values[0]

# means for male
male_height_mean=data_means["height"][data_means.index=="male"].values[0]
male_weight_mean=data_means["weight"][data_means.index=="male"].values[0]
male_footsize_mean=data_means["foot_size"][data_means.index=="male"].values[0]
print (male_height_mean,male_weight_mean,male_footsize_mean)

# means for female
female_height_mean=data_means["height"][data_means.index=="female"].values[0]
female_weight_mean=data_means["weight"][data_means.index=="female"].values[0]
female_footsize_mean=data_means["foot_size"][data_means.index=="female"].values[0]
print (female_height_mean,female_weight_mean,female_footsize_mean)

# variance for male
male_height_var=data_variance["height"][data_variance.index=="male"].values[0]
male_weight_var=data_variance["weight"][data_variance.index=="male"].values[0]
male_footsize_var=data_variance["foot_size"][data_variance.index=="male"].values[0]
print (male_height_var,male_weight_var,male_footsize_var)

# variance for female
female_height_var=data_variance["height"][data_variance.index=="female"].values[0]
female_weight_var=data_variance["weight"][data_variance.index=="female"].values[0]
female_footsize_var=data_variance["foot_size"][data_variance.index=="female"].values[0]
print (female_height_var,female_weight_var,female_footsize_var)

# create a function that calculates p(x | y):
def p_x_given_y(x,mean_y,variance_y):
    # input the arguments into a probability density function
    p = 1 / (np.sqrt(2 * np.pi * variance_y)) * \
       np.exp((-(x - mean_y) ** 2) / (2 * variance_y))
    # return p
    return p

# numerator of the posterior if the unclassified observation is a male
posterior_numerator_male = p_male * \
   p_x_given_y(person["height"][0],male_height_mean,male_height_var) * \
   p_x_given_y(person["weight"][0],male_weight_mean,male_weight_var) * \
   p_x_given_y(person["foot_size"][0],male_footsize_mean,male_footsize_var)

# numerator of the posterior if the unclassified observation is a female
posterior_numerator_female = p_female * \
   p_x_given_y(person["height"][0],female_height_mean,female_height_var) * \
   p_x_given_y(person["weight"][0],female_weight_mean,female_weight_var) * \
   p_x_given_y(person["foot_size"][0],female_footsize_mean,female_footsize_var) 

print ("Numerator of Posterior MALE =",posterior_numerator_male)
print ("Numerator of Posterior FEMALE =",posterior_numerator_female)
if (posterior_numerator_male >= posterior_numerator_female):
    print ("Predicted gender is MALE")
else:
    print ("Predicted gender is FEMALE")

当我们计算概率时，我们使用高斯 PDF 计算它:

$$ P(x) =\frac{1}{\sqrt {2\pi {\sigma}^2}} e^{\frac{-(x-\mu)^2}{2 {\西格玛}^2}}$$

我的问题是上面的等式是 PDF 的等式。要计算概率，我们必须在区域 dx 上对其进行积分。

$\int_{x0}^{x1} P(x)dx $

但在上面的程序中，我们将 x 的值插入并计算概率。那是对的吗？为什么？我有 seen most of the articles calculating概率以同样的方式。

如果这是朴素贝叶斯分类器中计算概率的错误方法，那么正确的方法是什么？

最佳答案

方法正确。 pdf函数是概率密度，即衡量处于某个值的邻域中的概率除以该邻域的“大小”的函数，其中“大小”是维度的长度1、2中的面积、3中的体积等

在连续概率中，准确获得任何给定结果的概率为 0，这就是使用密度代替的原因。因此，我们不处理诸如 P(X=x) 之类的表达式。但是用P(|X-x| < Δ(x)) , 代表 X 的概率亲近x .

让我简化符号并写成P(X~x)对于 P(|X-x| < Δ(x)) .

如果你在这里应用贝叶斯法则，你会得到

P(X~x|W~w) = P(W~w|X~x)*P(X~x)/P(W~w)

因为我们处理的是概率。如果我们现在引入密度:

pdf(x|w)*Δ(x) = pdf(w|x)Δ(w)*pdf(x)Δ(x)/(pdf(w)*Δ(w))

因为probability = density*neighborhood_size .由于所有 Δ(·)在上面的表达式中取消，我们得到

pdf(x|w) = pdf(w|x)*pdf(x)/pdf(w)

这是密度的贝叶斯规则。

结论是，鉴于贝叶斯规则也适用于密度，在处理连续随机变量时使用相同的方法用密度代替概率是合法的。

关于python - 如何从朴素贝叶斯分类器中的概率密度函数计算概率？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57388105/

24

4

0

文章推荐： linux - Debian 测试负载平均值是否显示真实值

文章推荐： c - 迷你压缩包 : Unzip from buffer?

文章推荐： linux - rsync 未更改文件

文章推荐： c - 如何不在文件系统设备驱动程序中进入死锁？

encoding - 哪种二维条码具有最高的数据容量/密度
;) 如果您想将 2mb 数据编码到 2d 条码中，哪种 2 条码适合作为起点或推荐。今天有很多不同类型的二维条码，Aztec 二维条码、maxicodes、Pdf417、Microsoft HCC
r - 绘制 3d 密度
我想创建一个具有密度的 3d 图。我使用函数 density 首先为特定的 x 值创建一个二维图，然后该函数创建密度并将它们放入 y 变量中。现在我有第二组 x 值并将其再次放入密度函数中，然后我得
r - 如何解释不同的 ggplot2 密度？
我对 geom_density 的以下变体的含义感到困惑在ggplot中: 有人可以解释这四个电话之间的区别: geom_density(aes_string(x=myvar)) geom_densi
statistics - 如何从一组加权样本中估计高斯(混合)密度？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
c++ - 2个给定数字之间的 double 密度
重要编辑:最初的问题是关于获取 double 和分数的密度。当我得到 double 而不是分数的答案时，我正在改变主题以结束这个问题。原问题的另一半是here 新问题我想找出 2 个给定数字之间的
android - 抽象 LCD 密度
如何计算 AVD 的抽象 LCD 密度？最佳答案抽象 LCD 密度以每英寸点数为单位(参见 docs)。 wikipedia article on Pixel density有一个有用的部分解释了
image - 在不增加文件大小的情况下设置 JPG 密度 (dpi)
我使用(在 Windows 下)以下命令 magick convert -units pixelsperinch file_in -density 600 file_out 设置 JPG 图像的 dp
android计算pad或手机的分辨率/像素/密度/屏幕尺寸/DPI值的方法
手机分辨率基础知识（dpi,dip计算） 1.术语和概念术语说明备注 screen size（屏幕尺寸)
r - 使用 2 个以上的组创建 Highcharts 密度
我尝试创建具有两个以上组的 Highcharts 密度。我找到了一种手动添加它们的方法，但必须有更好的方法来处理组。示例:我想创建一个类似于下面的 ggplot 图表的 highchart，而不是将
imagemagick - 从 pdf 转换时的默认 imagemagick 密度
我们有以下代码 convert foo.pdf foo.tiff 这多年来一直运行良好，并且由此产生的 tiff 是一个合理的打印质量。我们刚刚升级了 imagemagick，现在 tiff 的分辨
r - ggplot 中特殊变量的文档(..count..、..密度.. 等)
ggplot2 中的 stats_ 函数创建特殊变量，例如stat_bin2d 创建一个名为 ..count.. 的特殊变量。在哪里可以找到列出哪个 stat_ 函数返回哪些特殊变量的文档？我查看了
r - ggplot 中的特殊变量(..count..、..密度..等)
考虑以下几行。 p <- ggplot(mpg, aes(x=factor(cyl), y=..count..)) p + geom_histogram() p + stat_summary(fu
android - Galaxy Mini 模拟器 LCD 密度
我想模拟 Samsung Galaxy Mini。我将分辨率设置为 240x320，将 LCD 密度设置为 180。这是否正确？最佳答案是的，绝对正确.... 关于android - Galaxy
Android获取常用辅助方法(获取屏幕高度、宽度、密度、通知栏高度、截图)
我们需要获取Android手机或Pad的屏幕的物理尺寸，以便于界面的设计或是其他功能的实现。下面就分享一下Android中常用的一些辅助方法：获取屏幕高度：
r - 参数化的 ggplot2 直方图/密度 aes 函数找不到对象
我创建了一个直方图/密度图函数，我希望 y 轴是计数而不是密度，但在参数化其 binwidth 时遇到问题。我正在使用基于 http://docs.ggplot2.org/current/geom_
android - 下载应用程序时，Google Play 是否包含所有 mipmap 密度？
我试过四处搜索，但没有任何运气。我开发了一些使用大量图像的应用程序(大小大多为 200*200 像素)。我想通过添加不同尺寸的图像来支持不同的屏幕尺寸，但由于这会增加 apk 的许多兆字节，我需要知道
python - 如何更改 Pandas 时间序列图的 x-ticks 密度？
我正在尝试生成一个较小的图形来可视化 Pandas 时间序列。然而，自动生成的 x-ticks 不适应新的大小并导致重叠的刻度。我想知道如何调整 x-ticks 的频率？例如。对于这个例子: figs
r - 在 R 中使用 facet_wrap 规范化 ggplot2 密度
我正在使用 geom_density 制作一系列密度图从数据框中，并使用 facet_wrap 按条件显示它，如: ggplot(iris) + geom_density(aes(x=Sepal.Wi
android - 密度 APK 拆分不会反射(reflect)在 mipmap 文件夹中
我已经从 From this example 了解了 APK 拆分概念我已经尝试在我的项目中实现它，但只有 Drawable 文件夹受到影响。我也想拆分 Mipmap 文件夹。下面是我的 buil
javascript - 如何在 Javascript 中设置 JPEG/PNG 图像的分辨率/密度？
我需要在 javascript 中更改 JPG/PNG 类型图像的分辨率/密度。我需要这样做的原因是我可以将图像发送到第三方 API，然后第三方 API 将根据分辨率/密度元数据知道要打印的每英寸像素

首页

博学

6Ren·AI

商城

python - 如何从朴素贝叶斯分类器中的概率密度函数计算概率？