用 Python 轻松实现机器学习-6ren

用 Python 轻松实现机器学习

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

50

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章用 Python 轻松实现机器学习由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

用 Python 轻松实现机器学习

用朴素贝叶斯分类器解决现实世界里的机器学习问题.

朴素贝叶斯Naïve Bayes是一种分类技术，它是许多分类器建模算法的基础。基于朴素贝叶斯的分类器是简单、快速和易用的机器学习技术之一，而且在现实世界的应用中很有效.

朴素贝叶斯是从贝叶斯定理Bayes' theorem 发展来的。贝叶斯定理由 18 世纪的统计学家托马斯·贝叶斯提出，它根据与一个事件相关联的其他条件来计算该事件发生的概率。比如，帕金森氏病患者通常嗓音会发生变化，因此嗓音变化就是与预测帕金森氏病相关联的症状。贝叶斯定理提供了计算目标事件发生概率的方法，而朴素贝叶斯是对该方法的推广和简化.

解决一个现实世界里的问题

。

这篇文章展示了朴素贝叶斯分类器解决现实世界问题（相对于完整的商业级应用）的能力。我会假设你对机器学习有基本的了解，所以文章里会跳过一些与机器学习预测不大相关的步骤，比如数据打乱date shuffling 和数据切片data splitting。如果你是机器学习方面的新手或者需要一个进修课程，请查看《An introduction to machine learning today》和《Getting started with open source machine learning》.

朴素贝叶斯分类器是有监督的supervised、属于生成模型generative 的、非线性的、属于参数模型parametric 的和基于概率的probabilistic.

在这篇文章里，我会演示如何用朴素贝叶斯预测帕金森氏病。需要用到的数据集来自 UCI 机器学习库。这个数据集包含许多语音信号的指标，用于计算患帕金森氏病的可能性；在这个例子里我们将使用这些指标中的前 8 个:

MDVP:Fo(Hz)：平均声带基频
MDVP:Fhi(Hz)：最高声带基频
MDVP:Flo(Hz)：最低声带基频
MDVP:Jitter(%)、MDVP:Jitter(Abs)、MDVP:RAP、MDVP:PPQ 和 Jitter:DDP：5 个衡量声带基频变化的指标

这个例子里用到的数据集，可以在我的 GitHub 仓库里找到。数据集已经事先做了打乱和切片.

用 Python 实现机器学习

。

接下来我会用 Python 来解决这个问题。我用的软件是:

Python 3.8.2
Pandas 1.1.1
scikit-learn 0.22.2.post1

Python 有多个朴素贝叶斯分类器的实现，都是开源的，包括:

NLTK Naïve Bayes：基于标准的朴素贝叶斯算法，用于文本分类
NLTK Positive Naïve Bayes：NLTK Naïve Bayes 的变体，用于对只标注了一部分的训练集进行二分类
Scikit-learn Gaussian Naïve Bayes：提供了部分拟合方法来支持数据流或很大的数据集（LCTT 译注：它们可能无法一次性导入内存，用部分拟合可以动态地增加数据）
Scikit-learn Multinomial Naïve Bayes：针对离散型特征、实例计数、频率等作了优化
Scikit-learn Bernoulli Naïve Bayes：用于各个特征都是二元变量/布尔特征的情况

在这个例子里我将使用 sklearn Gaussian Naive Bayes.

我的 Python 实现在 naive_bayes_parkinsons.py 里，如下所示:

import pandas as pd
# x_rows 是我们所使用的 8 个特征的列名
x_rows=['MDVP:Fo(Hz)','MDVP:Fhi(Hz)','MDVP:Flo(Hz)',
'MDVP:Jitter(%)','MDVP:Jitter(Abs)','MDVP:RAP','MDVP:PPQ','Jitter:DDP']
y_rows=['status'] # y_rows 是类别的列名，若患病，值为 1，若不患病，值为 0
# 训练
# 读取训练数据
train_data = pd.read_csv('parkinsons/Data_Parkinsons_TRAIN.csv')
train_x = train_data[x_rows]
train_y = train_data[y_rows]
print("train_x:\n", train_x)
print("train_y:\n", train_y)
# 导入 sklearn Gaussian Naive Bayes，然后进行对训练数据进行拟合
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(train_x, train_y)
# 对训练数据进行预测
predict_train = gnb.predict(train_x)
print('Prediction on train data:', predict_train)
# 在训练数据上的准确率
from sklearn.metrics import accuracy_score
accuracy_train = accuracy_score(train_y, predict_train)
print('Accuray score on train data:', accuracy_train)
# 测试
# 读取测试数据
test_data = pd.read_csv('parkinsons/Data_Parkinsons_TEST.csv')
test_x = test_data[x_rows]
test_y = test_data[y_rows]
# 对测试数据进行预测
predict_test = gnb.predict(test_x)
print('Prediction on test data:', predict_test)
# 在测试数据上的准确率
accuracy_test = accuracy_score(test_y, predict_test)
print('Accuray score on test data:', accuracy_train)

运行这个 Python 脚本:

$ python naive_bayes_parkinsons.py
train_x:
MDVP:Fo(Hz) MDVP:Fhi(Hz) ... MDVP:RAP MDVP:PPQ Jitter:DDP
0 152.125 161.469 ... 0.00191 0.00226 0.00574
1 120.080 139.710 ... 0.00180 0.00220 0.00540
2 122.400 148.650 ... 0.00465 0.00696 0.01394
3 237.323 243.709 ... 0.00173 0.00159 0.00519
.. ... ... ... ... ... ...
155 138.190 203.522 ... 0.00406 0.00398 0.01218
[156 rows x 8 columns]
train_y:
status
0 1
1 1
2 1
3 0
.. ...
155 1
[156 rows x 1 columns]
Prediction on train data: [1 1 1 0 ... 1]
Accuracy score on train data: 0.6666666666666666
Prediction on test data: [1 1 1 1 ... 1
1 1]
Accuracy score on test data: 0.6666666666666666

在训练集和测试集上的准确率都是 67%。它的性能还可以进一步优化。你想尝试一下吗？你可以在下面的评论区给出你的方法.

背后原理

。

朴素贝叶斯分类器从贝叶斯定理发展来的。贝叶斯定理用于计算条件概率，或者说贝叶斯定理用于计算当与一个事件相关联的其他事件发生时，该事件发生的概率。简而言之，它解决了这个问题：如果我们已经知道事件 x 发生在事件 y 之前的概率，那么当事件 x 再次发生时，事件 y 发生的概率是多少？贝叶斯定理用一个先验的预测值来逐渐逼近一个最终的后验概率。贝叶斯定理有一个基本假设，就是所有的参数重要性相同（LCTT 译注：即相互独立）.

贝叶斯计算主要包括以下步骤:

计算总的先验概率：
$P (患病)$ 和 $P (不患病)$
计算 8 种指标各自是某个值时的后验概率 (value1,...,value8 分别是 MDVP:Fo(Hz)，...，Jitter:DDP 的取值)：
$P(value1,\ldots,value8\ |\ 患病)$
$P(value1,\ldots,value8\ |\ 不患病)$
将第 1 步和第 2 步的结果相乘，最终得到患病和不患病的后验概率：
$P(患病\ |\ value1,\ldots,value8) \propto P(患病) \times P(value1,\ldots,value8\ |\ 患病)$
$P(不患病\ |\ value1,\ldots,value8) \propto P(不患病) \times P(value1,\ldots,value8\ |\ 不患病)$

上面第 2 步的计算非常复杂，朴素贝叶斯将它作了简化:

计算总的先验概率：
$P (患病)$ 和 $P (不患病)$
对 8 种指标里的每个指标，计算其取某个值时的后验概率：
$P(value1\ |\ 患病),\ldots,P(value8\ |\ 患病)$
$P(value1\ |\ 不患病),\ldots,P(value8\ |\ 不患病)$
将第 1 步和第 2 步的结果相乘，最终得到患病和不患病的后验概率：
$P(患病\ |\ value1,\ldots,value8) \propto P(患病) \times P(value1\ |\ 患病) \times \ldots \times P(value8\ |\ 患病)$
$P(不患病\ |\ value1,\ldots,value8) \propto P(不患病) \times P(value1\ |\ 不患病) \times \ldots \times P(value8\ |\ 不患病)$

这只是一个很初步的解释，还有很多其他因素需要考虑，比如数据类型的差异，稀疏数据，数据可能有缺失值等.

超参数

。

朴素贝叶斯作为一个简单直接的算法，不需要超参数。然而，有的版本的朴素贝叶斯实现可能提供一些高级特性（比如超参数）。比如，GaussianNB 就有 2 个超参数:

priors：先验概率，可以事先指定，这样就不必让算法从数据中计算才能得出。
var_smoothing：考虑数据的分布情况，当数据不满足标准的高斯分布时，这个超参数会发挥作用。

损失函数

。

为了坚持简单的原则，朴素贝叶斯使用 0-1 损失函数。如果预测结果与期望的输出相匹配，损失值为 0，否则为 1.

优缺点

。

优点：朴素贝叶斯是最简单、最快速的算法之一。优点：在数据量较少时，用朴素贝叶斯仍可作出可靠的预测。缺点：朴素贝叶斯的预测只是估计值，并不准确。它胜在速度而不是准确度。缺点：朴素贝叶斯有一个基本假设，就是所有特征相互独立，但现实情况并不总是如此.

从本质上说，朴素贝叶斯是贝叶斯定理的推广。它是最简单最快速的机器学习算法之一，用来进行简单和快速的训练和预测。朴素贝叶斯提供了足够好、比较准确的预测。朴素贝叶斯假设预测特征之间是相互独立的。已经有许多朴素贝叶斯的开源的实现，它们的特性甚至超过了贝叶斯算法的实现.

原文地址：https://linux.cn/article-13628-1.html 。

最后此篇关于用 Python 轻松实现机器学习的文章就讲到这里了,如果你想了解更多关于用 Python 轻松实现机器学习的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

50

4

0

文章推荐： NumPy 索引和切片的用法总结

文章推荐：一篇文章带你了解kali局域网攻击

文章推荐： Python如何利用正则表达式爬取网页信息及图片

文章推荐： Python的Matplotlib库图像复现学习

机器学习：神经网络构建（下）
简介在上一篇文章《机器学习：神经网络构建（上）》中讨论了线性层、激活函数以及损失函数层的构建方式，本节中将进一步讨论网络构建方式，并完整的搭建一个简单的分类器网络。目录网络Netwo
机器学习：神经网络构建方式
简介在本篇文章中，我们采用逻辑回归作为案例，探索神经网络的构建方式。文章详细阐述了神经网络中层结构的实现过程，并提供了线性层、激活函数以及损失函数的定义（实现方法）。目录背景介绍
机器学习：逻辑回归
简介在前两篇文章中，我们详细探讨了如何利用采样数据来估计回归曲线。接下来，在本节中，我们将深入讨论如何处理分类问题。章节安排背景介绍数学方法程序实现背景介绍线
机器学习：线性回归（下）
简介在上一篇文章《机器学习：线性回归（上）》中讨论了二维数据下的线性回归及求解方法，本节中我们将进一步的将其推广至高维情形。章节安排背景介绍最小二乘法梯度下降法程序
[机器学习]低代码机器学习工具PyCaret库使用指北
PyCaret是一个开源、低代码Python机器学习库，能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具，极大地加快了实验周期，提高了工作效率。PyCaret本质上是围绕几个机器学习
Matlab-机器学习？
在我的研究进展中，我现在已经将寄生虫从图像中分离出来。寄生虫看起来像蠕虫。我希望 MATLAB 读取所有输入图像，查找类似深紫色图像的蠕虫，如果检测到，则给出检测到的答复。我尝试使用直方图比较，但我认
Python-机器学习
目前我正在尝试了解机器学习算法的工作方式，但我没有真正了解的一件事是预测标签的计算准确度与视觉混淆矩阵之间的明显差异。我会尽量解释清楚。这是数据集的片段(这里你可以看到 9 个样本(在真实数据集中大
机器学习-周志华
第一章绪论机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中， “经验” 通常以“数据“形式存在，因此，机器学习所研究的主要内容，是关于在计算
机器学习-KNN算法
1. 算法原理（K-Nearest Neighbor）本质是通过距离判断两个样本是否相似，如果距离够近就认为他们足够相似属于同一类别找到离其最近的 k 个样本，并将这些样本称
机器学习-Kmeans
前言 K-means是一种经典的无监督学习算法，用于对数据进行聚类。K-means算法将数据集视为具有n个特征的n维空间，并尝试通过最小化簇内平方误差的总和来将数据点划分为簇。本文将介绍K-m
机器学习-集成学习LightGBM
目录前言介绍LightGBM LightGBM的背景和起源 L
机器学习--要学点什么
前言可以说掌握了机器学习，你就具备了与机器对话，充分利用机器为人类服务的能力。在人工智能时代，这将成为一项必备技能，就好比十年前你是编程大牛，二十年前你英语超好一样。因此，无论你是什么专业的
机器学习--起手式
几个贯穿始终的概念当我们把人类学习简单事物的过程抽象为几个阶段，再将这些阶段通过不同的方法具体化为代码，依靠通过计算机的基础能力-- 计算。我们就可以让机器能够“学会”一些简单的事物。
机器学习——人脸性别识别
1、选题背景人脸识别技术是模式识别和计算机视觉领域最富挑战性的研究课题之一，也是近年来的研究热点，人脸性别识别作为人脸识别技术
[大数据][机器学习]之ModelCard（模型卡片）介绍
每当我们在公有云或者私有云发布训练好的大数据模型，为了方便大家辨识、理解和运用，参照huggingface所制定的标准制作一个Model Card展示页，是种非常好的模型展示和组织形式。下面就是一
【机器学习】2.支持向量机
2. 支持向量机对偶优化拉格朗日乘数法可用于解决带条件优化问题，其基本形式为： \[\begin{gather} \min_w f(w),\\ \mathrm{s.t.} \quad
c++ - 机器学习/openVino代码中的Zoo文件的目的是什么
我正在尝试运行以下代码: https://github.com/opencv/opencv/blob/master/samples/dnn/classification.cpp 我在这里找到所有经过预
python - 构建决策树回归模型并预测样本输出 - 机器学习
我是机器学习新手。当我使用 scikit-learn 模块中的波士顿数据集练习具有默认参数的决策树回归模型时。在此链接解决方案( How to Build a Decision tree Regre
matlab - 机器学习 - 在训练数据中引入偏差
我有用于训练的数据。当我将其输入神经网络时，该数据出现 3% 的错误。我知道这些数据有一定的过度代表性 - 例如，第 5 类的示例大约是其他类的十分之一。我的作业指出，我可以通过偏置训练数据(即删
python - 机器学习-多标签分类SVM
我在 Python 的多类分类中使用 SVM 时遇到问题。事实上，问题在于性别分类(来自图像)，其中训练数据集仅包含“y=1”或“ y=-1”作为类标签(二进制)。但是，在预测中，如果是男性，我必须预

首页

博学

6Ren·AI

商城