- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python实现的朴素贝叶斯算法经典示例【测试可用】由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
本文实例讲述了Python实现的朴素贝叶斯算法。分享给大家供大家参考,具体如下:
代码主要参考机器学习实战那本书,发现最近老外的书确实比中国人写的好,由浅入深,代码通俗易懂,不多说上代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
|
#encoding:utf-8
'''''
Created on 2015年9月6日
@author: ZHOUMEIXU204
朴素贝叶斯实现过程
'''
#在该算法中类标签为1和0,如果是多标签稍微改动代码既可
import
numpy as np
path
=
u
"D:\\Users\\zhoumeixu204\Desktop\\python语言机器学习\\机器学习实战代码 python\\机器学习实战代码\\machinelearninginaction\\Ch04\\"
def
loadDataSet():
postingList
=
[[
'my'
,
'dog'
,
'has'
,
'flea'
,
'problems'
,
'help'
,
'please'
],\
[
'maybe'
,
'not'
,
'take'
,
'him'
,
'to'
,
'dog'
,
'park'
,
'stupid'
],\
[
'my'
,
'dalmation'
,
'is'
,
'so'
,
'cute'
,
'I'
,
'love'
,
'him'
],\
[
'stop'
,
'posting'
,
'stupid'
,
'worthless'
,
'garbage'
],\
[
'mr'
,
'licks'
,
'ate'
,
'my'
,
'steak'
,
'how'
,
'to'
,
'stop'
,
'him'
],\
[
'quit'
,
'buying'
,
'worthless'
,
'dog'
,
'food'
,
'stupid'
]]
classVec
=
[
0
,
1
,
0
,
1
,
0
,
1
]
#1 is abusive, 0 not
return
postingList,classVec
def
createVocabList(dataset):
vocabSet
=
set
([])
for
document
in
dataset:
vocabSet
=
vocabSet|
set
(document)
return
list
(vocabSet)
def
setOfWordseVec(vocabList,inputSet):
returnVec
=
[
0
]
*
len
(vocabList)
for
word
in
inputSet:
if
word
in
vocabList:
returnVec[vocabList.index(word)]
=
1
#vocabList.index() 函数获取vocabList列表某个元素的位置,这段代码得到一个只包含0和1的列表
else
:
print
(
"the word :%s is not in my Vocabulary!"
%
word)
return
returnVec
listOPosts,listClasses
=
loadDataSet()
myVocabList
=
createVocabList(listOPosts)
print
(
len
(myVocabList))
print
(myVocabList)
print
(setOfWordseVec(myVocabList, listOPosts[
0
]))
print
(setOfWordseVec(myVocabList, listOPosts[
3
]))
#上述代码是将文本转化为向量的形式,如果出现则在向量中为1,若不出现 ,则为0
def
trainNB0(trainMatrix,trainCategory):
#创建朴素贝叶斯分类器函数
numTrainDocs
=
len
(trainMatrix)
numWords
=
len
(trainMatrix[
0
])
pAbusive
=
sum
(trainCategory)
/
float
(numTrainDocs)
p0Num
=
np.ones(numWords);p1Num
=
np.ones(numWords)
p0Deom
=
2.0
;p1Deom
=
2.0
for
i
in
range
(numTrainDocs):
if
trainCategory[i]
=
=
1
:
p1Num
+
=
trainMatrix[i]
p1Deom
+
=
sum
(trainMatrix[i])
else
:
p0Num
+
=
trainMatrix[i]
p0Deom
+
=
sum
(trainMatrix[i])
p1vect
=
np.log(p1Num
/
p1Deom)
#change to log
p0vect
=
np.log(p0Num
/
p0Deom)
#change to log
return
p0vect,p1vect,pAbusive
listOPosts,listClasses
=
loadDataSet()
myVocabList
=
createVocabList(listOPosts)
trainMat
=
[]
for
postinDoc
in
listOPosts:
trainMat.append(setOfWordseVec(myVocabList, postinDoc))
p0V,p1V,pAb
=
trainNB0(trainMat, listClasses)
if
__name__!
=
'__main__'
:
print
(
"p0的概况"
)
print
(p0V)
print
(
"p1的概率"
)
print
(p1V)
print
(
"pAb的概率"
)
print
(pAb)
|
运行结果:
32 ['him', 'garbage', 'problems', 'take', 'steak', 'quit', 'so', 'is', 'cute', 'posting', 'dog', 'to', 'love', 'licks', 'dalmation', 'flea', 'I', 'please', 'maybe', 'buying', 'my', 'stupid', 'park', 'food', 'stop', 'has', 'ate', 'help', 'how', 'mr', 'worthless', 'not'] [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0] [0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0] 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
|
# -*- coding:utf-8 -*-
#!python2
#构建样本分类器testEntry=['love','my','dalmation'] testEntry=['stupid','garbage']到底属于哪个类别
import
numpy as np
def
loadDataSet():
postingList
=
[[
'my'
,
'dog'
,
'has'
,
'flea'
,
'problems'
,
'help'
,
'please'
],\
[
'maybe'
,
'not'
,
'take'
,
'him'
,
'to'
,
'dog'
,
'park'
,
'stupid'
],\
[
'my'
,
'dalmation'
,
'is'
,
'so'
,
'cute'
,
'I'
,
'love'
,
'him'
],\
[
'stop'
,
'posting'
,
'stupid'
,
'worthless'
,
'garbage'
],\
[
'mr'
,
'licks'
,
'ate'
,
'my'
,
'steak'
,
'how'
,
'to'
,
'stop'
,
'him'
],\
[
'quit'
,
'buying'
,
'worthless'
,
'dog'
,
'food'
,
'stupid'
]]
classVec
=
[
0
,
1
,
0
,
1
,
0
,
1
]
#1 is abusive, 0 not
return
postingList,classVec
def
createVocabList(dataset):
vocabSet
=
set
([])
for
document
in
dataset:
vocabSet
=
vocabSet|
set
(document)
return
list
(vocabSet)
def
setOfWordseVec(vocabList,inputSet):
returnVec
=
[
0
]
*
len
(vocabList)
for
word
in
inputSet:
if
word
in
vocabList:
returnVec[vocabList.index(word)]
=
1
#vocabList.index() 函数获取vocabList列表某个元素的位置,这段代码得到一个只包含0和1的列表
else
:
print
(
"the word :%s is not in my Vocabulary!"
%
word)
return
returnVec
def
trainNB0(trainMatrix,trainCategory):
#创建朴素贝叶斯分类器函数
numTrainDocs
=
len
(trainMatrix)
numWords
=
len
(trainMatrix[
0
])
pAbusive
=
sum
(trainCategory)
/
float
(numTrainDocs)
p0Num
=
np.ones(numWords);p1Num
=
np.ones(numWords)
p0Deom
=
2.0
;p1Deom
=
2.0
for
i
in
range
(numTrainDocs):
if
trainCategory[i]
=
=
1
:
p1Num
+
=
trainMatrix[i]
p1Deom
+
=
sum
(trainMatrix[i])
else
:
p0Num
+
=
trainMatrix[i]
p0Deom
+
=
sum
(trainMatrix[i])
p1vect
=
np.log(p1Num
/
p1Deom)
#change to log
p0vect
=
np.log(p0Num
/
p0Deom)
#change to log
return
p0vect,p1vect,pAbusive
def
classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
p1
=
sum
(vec2Classify
*
p1Vec)
+
np.log(pClass1)
p0
=
sum
(vec2Classify
*
p0Vec)
+
np.log(
1.0
-
pClass1)
if
p1>p0:
return
1
else
:
return
0
def
testingNB():
listOPosts,listClasses
=
loadDataSet()
myVocabList
=
createVocabList(listOPosts)
trainMat
=
[]
for
postinDoc
in
listOPosts:
trainMat.append(setOfWordseVec(myVocabList, postinDoc))
p0V,p1V,pAb
=
trainNB0(np.array(trainMat),np.array(listClasses))
print
(
"p0V={0}"
.
format
(p0V))
print
(
"p1V={0}"
.
format
(p1V))
print
(
"pAb={0}"
.
format
(pAb))
testEntry
=
[
'love'
,
'my'
,
'dalmation'
]
thisDoc
=
np.array(setOfWordseVec(myVocabList, testEntry))
print
(thisDoc)
print
(
"vec2Classify*p0Vec={0}"
.
format
(thisDoc
*
p0V))
print
(testEntry,
'classified as :'
,classifyNB(thisDoc, p0V, p1V, pAb))
testEntry
=
[
'stupid'
,
'garbage'
]
thisDoc
=
np.array(setOfWordseVec(myVocabList, testEntry))
print
(thisDoc)
print
(testEntry,
'classified as :'
,classifyNB(thisDoc, p0V, p1V, pAb))
if
__name__
=
=
'__main__'
:
testingNB()
|
运行结果:
p0V=[-3.25809654 -2.56494936 -3.25809654 -3.25809654 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -1.87180218 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -3.25809654 -2.56494936 -2.56494936 -3.25809654 -2.15948425 -2.56494936 -3.25809654 -2.56494936 -3.25809654 -3.25809654] p1V=[-2.35137526 -3.04452244 -1.94591015 -2.35137526 -1.94591015 -3.04452244 -2.35137526 -3.04452244 -3.04452244 -1.65822808 -3.04452244 -3.04452244 -2.35137526 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -2.35137526 -2.35137526 -3.04452244 -3.04452244 -2.35137526 -2.35137526 -3.04452244 -2.35137526 -2.35137526 -2.35137526 -2.35137526] pAb=0.5 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0] vec2Classify*p0Vec=[-0. -0. -0. -0. -0. -0. -0. -0. -0. -0. -0. -0. -0. -0. -1.87180218 -0. -0. -2.56494936 -0. -0. -0. -0. -0. -0. -0. -0. -0. -2.56494936 -0. -0. -0. -0. ] ['love', 'my', 'dalmation'] classified as : 0 [0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1] ['stupid', 'garbage'] classified as : 1 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
|
# -*- coding:utf-8 -*-
#! python2
#使用朴素贝叶斯过滤垃圾邮件
# 1.收集数据:提供文本文件
# 2.准备数据:讲文本文件见习成词条向量
# 3.分析数据:检查词条确保解析的正确性
# 4.训练算法:使用我们之前简历的trainNB0()函数
# 5.测试算法:使用classifyNB(),并且对建一个新的测试函数来计算文档集的错误率
# 6.使用算法,构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上
# import re
# mySent='this book is the best book on python or M.L. I hvae ever laid eyes upon.'
# print(mySent.split())
# regEx=re.compile('\\W*')
# print(regEx.split(mySent))
# emailText=open(path+"email\\ham\\6.txt").read()
import
numpy as np
path
=
u
"C:\\py\\jb51PyDemo\\src\\Demo\\Ch04\\"
def
loadDataSet():
postingList
=
[[
'my'
,
'dog'
,
'has'
,
'flea'
,
'problems'
,
'help'
,
'please'
],\
[
'maybe'
,
'not'
,
'take'
,
'him'
,
'to'
,
'dog'
,
'park'
,
'stupid'
],\
[
'my'
,
'dalmation'
,
'is'
,
'so'
,
'cute'
,
'I'
,
'love'
,
'him'
],\
[
'stop'
,
'posting'
,
'stupid'
,
'worthless'
,
'garbage'
],\
[
'mr'
,
'licks'
,
'ate'
,
'my'
,
'steak'
,
'how'
,
'to'
,
'stop'
,
'him'
],\
[
'quit'
,
'buying'
,
'worthless'
,
'dog'
,
'food'
,
'stupid'
]]
classVec
=
[
0
,
1
,
0
,
1
,
0
,
1
]
#1 is abusive, 0 not
return
postingList,classVec
def
createVocabList(dataset):
vocabSet
=
set
([])
for
document
in
dataset:
vocabSet
=
vocabSet|
set
(document)
return
list
(vocabSet)
def
setOfWordseVec(vocabList,inputSet):
returnVec
=
[
0
]
*
len
(vocabList)
for
word
in
inputSet:
if
word
in
vocabList:
returnVec[vocabList.index(word)]
=
1
#vocabList.index() 函数获取vocabList列表某个元素的位置,这段代码得到一个只包含0和1的列表
else
:
print
(
"the word :%s is not in my Vocabulary!"
%
word)
return
returnVec
def
trainNB0(trainMatrix,trainCategory):
#创建朴素贝叶斯分类器函数
numTrainDocs
=
len
(trainMatrix)
numWords
=
len
(trainMatrix[
0
])
pAbusive
=
sum
(trainCategory)
/
float
(numTrainDocs)
p0Num
=
np.ones(numWords);p1Num
=
np.ones(numWords)
p0Deom
=
2.0
;p1Deom
=
2.0
for
i
in
range
(numTrainDocs):
if
trainCategory[i]
=
=
1
:
p1Num
+
=
trainMatrix[i]
p1Deom
+
=
sum
(trainMatrix[i])
else
:
p0Num
+
=
trainMatrix[i]
p0Deom
+
=
sum
(trainMatrix[i])
p1vect
=
np.log(p1Num
/
p1Deom)
#change to log
p0vect
=
np.log(p0Num
/
p0Deom)
#change to log
return
p0vect,p1vect,pAbusive
def
classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
p1
=
sum
(vec2Classify
*
p1Vec)
+
np.log(pClass1)
p0
=
sum
(vec2Classify
*
p0Vec)
+
np.log(
1.0
-
pClass1)
if
p1>p0:
return
1
else
:
return
0
def
textParse(bigString):
import
re
listOfTokens
=
re.split(r
'\W*'
,bigString)
return
[tok.lower()
for
tok
in
listOfTokens
if
len
(tok)>
2
]
def
spamTest():
docList
=
[];classList
=
[];fullText
=
[]
for
i
in
range
(
1
,
26
):
wordList
=
textParse(
open
(path
+
"email\\spam\\%d.txt"
%
i).read())
docList.append(wordList)
fullText.extend(wordList)
classList.append(
1
)
wordList
=
textParse(
open
(path
+
"email\\ham\\%d.txt"
%
i).read())
docList.append(wordList)
fullText.extend(wordList)
classList.append(
0
)
vocabList
=
createVocabList(docList)
trainingSet
=
range
(
50
);testSet
=
[]
for
i
in
range
(
10
):
randIndex
=
int
(np.random.uniform(
0
,
len
(trainingSet)))
testSet.append(trainingSet[randIndex])
del
(trainingSet[randIndex])
trainMat
=
[];trainClasses
=
[]
for
docIndex
in
trainingSet:
trainMat.append(setOfWordseVec(vocabList, docList[docIndex]))
trainClasses.append(classList[docIndex])
p0V,p1V,pSpam
=
trainNB0(np.array(trainMat),np.array(trainClasses))
errorCount
=
0
for
docIndex
in
testSet:
wordVector
=
setOfWordseVec(vocabList, docList[docIndex])
if
classifyNB(np.array(wordVector), p0V, p1V, pSpam)!
=
classList[docIndex]:
errorCount
+
=
1
print
'the error rate is :'
,
float
(errorCount)
/
len
(testSet)
if
__name__
=
=
'__main__'
:
spamTest()
|
运行结果:
the error rate is : 0.0 。
其中,path路径所使用到的Ch04文件点击此处本站下载.
希望本文所述对大家Python程序设计有所帮助.
原文链接:https://blog.csdn.net/luoyexuge/article/details/49104837 。
最后此篇关于Python实现的朴素贝叶斯算法经典示例【测试可用】的文章就讲到这里了,如果你想了解更多关于Python实现的朴素贝叶斯算法经典示例【测试可用】的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
滑动窗口限流 滑动窗口限流是一种常用的限流算法,通过维护一个固定大小的窗口,在单位时间内允许通过的请求次数不超过设定的阈值。具体来说,滑动窗口限流算法通常包括以下几个步骤: 初始化:设置窗口
表达式求值:一个只有+,-,*,/的表达式,没有括号 一种神奇的做法:使用数组存储数字和运算符,先把优先级别高的乘法和除法计算出来,再计算加法和减法 int GetVal(string s){
【算法】前缀和 题目 先来看一道题目:(前缀和模板题) 已知一个数组A[],现在想要求出其中一些数字的和。 输入格式: 先是整数N,M,表示一共有N个数字,有M组询问 接下来有N个数,表示A[1]..
1.前序遍历 根-左-右的顺序遍历,可以使用递归 void preOrder(Node *u){ if(u==NULL)return; printf("%d ",u->val);
先看题目 物品不能分隔,必须全部取走或者留下,因此称为01背包 (只有不取和取两种状态) 看第一个样例 我们需要把4个物品装入一个容量为10的背包 我们可以简化问题,从小到大入手分析 weightva
我最近在一次采访中遇到了这个问题: 给出以下矩阵: [[ R R R R R R], [ R B B B R R], [ B R R R B B], [ R B R R R R]] 找出是否有任
我正在尝试通过 C++ 算法从我的 outlook 帐户发送一封电子邮件,该帐户已经打开并记录,但真的不知道从哪里开始(对于 outlook-c++ 集成),谷歌也没有帮我这么多。任何提示将不胜感激。
我发现自己像这样编写了一个手工制作的 while 循环: std::list foo; // In my case, map, but list is simpler auto currentPoin
我有用于检测正方形的 opencv 代码。现在我想在检测正方形后,代码运行另一个命令。 代码如下: #include "cv.h" #include "cxcore.h" #include "high
我正在尝试模拟一个 matlab 函数“imfill”来填充二进制图像(1 和 0 的二维矩阵)。 我想在矩阵中指定一个起点,并像 imfill 的 4 连接版本那样进行洪水填充。 这是否已经存在于
我正在阅读 Robert Sedgewick 的《C++ 算法》。 Basic recurrences section it was mentioned as 这种循环出现在循环输入以消除一个项目的递
我正在思考如何在我的日历中生成代表任务的数据结构(仅供我个人使用)。我有来自 DBMS 的按日期排序的任务记录,如下所示: 买牛奶(18.1.2013) 任务日期 (2013-01-15) 任务标签(
输入一个未排序的整数数组A[1..n]只有 O(d) :(d int) 计算每个元素在单次迭代中出现在列表中的次数。 map 是balanced Binary Search Tree基于确保 O(nl
我遇到了一个问题,但我仍然不知道如何解决。我想出了如何用蛮力的方式来做到这一点,但是当有成千上万的元素时它就不起作用了。 Problem: Say you are given the followin
我有一个列表列表。 L1= [[...][...][.......].......]如果我在展平列表后获取所有元素并从中提取唯一值,那么我会得到一个列表 L2。我有另一个列表 L3,它是 L2 的某个
我们得到二维矩阵数组(假设长度为 i 和宽度为 j)和整数 k我们必须找到包含这个或更大总和的最小矩形的大小F.e k=7 4 1 1 1 1 1 4 4 Anwser是2,因为4+4=8 >= 7,
我实行 3 类倒制,每周换类。顺序为早类 (m)、晚类 (n) 和下午类 (a)。我固定的订单,即它永远不会改变,即使那个星期不工作也是如此。 我创建了一个函数来获取 ISO 周数。当我给它一个日期时
假设我们有一个输入,它是一个元素列表: {a, b, c, d, e, f} 还有不同的集合,可能包含这些元素的任意组合,也可能包含不在输入列表中的其他元素: A:{e,f} B:{d,f,a} C:
我有一个子集算法,可以找到给定集合的所有子集。原始集合的问题在于它是一个不断增长的集合,如果向其中添加元素,我需要再次重新计算它的子集。 有没有一种方法可以优化子集算法,该算法可以从最后一个计算点重新
我有一个包含 100 万个符号及其预期频率的表格。 我想通过为每个符号分配一个唯一(且前缀唯一)的可变长度位串来压缩这些符号的序列,然后将它们连接在一起以表示序列。 我想分配这些位串,以使编码序列的预
我是一名优秀的程序员,十分优秀!