- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章朴素贝叶斯Python实例及解析由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
本文实例为大家分享了Python朴素贝叶斯实例代码,供大家参考,具体内容如下 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
|
#-*- coding: utf-8 -*- #添加中文注释
from
numpy
import
*
#过滤网站的恶意留言
#样本数据
def
loadDataSet():
postingList
=
[[
'my'
,
'dog'
,
'has'
,
'flea'
,
'problems'
,
'help'
,
'please'
],
[
'maybe'
,
'not'
,
'take'
,
'him'
,
'to'
,
'dog'
,
'park'
,
'stupid'
],
[
'my'
,
'dalmation'
,
'is'
,
'so'
,
'cute'
,
'I'
,
'love'
,
'him'
],
[
'stop'
,
'posting'
,
'stupid'
,
'worthless'
,
'garbage'
],
[
'mr'
,
'licks'
,
'ate'
,
'my'
,
'steak'
,
'how'
,
'to'
,
'stop'
,
'him'
],
[
'quit'
,
'buying'
,
'worthless'
,
'dog'
,
'food'
,
'stupid'
]]
#类别标签:1侮辱性文字,0正常言论
classVec
=
[
0
,
1
,
0
,
1
,
0
,
1
]
#返回文档向量,类别向量
return
postingList,classVec
#创建词汇表
#输入:dataSet已经经过切分处理
#输出:包含所有文档中出现的不重复词的列表
def
createVocabList(dataSet):
#构建set集合,会返回不重复词表
vocabSet
=
set
([])
#遍历每篇文档向量,扫描所有文档的单词
for
document
in
dataSet:
#通过set(document),获取document中不重复词列表
vocabSet
=
vocabSet |
set
(document)
#求并集
return
list
(vocabSet)
#***词集模型:只考虑单词是否出现
#vocabList:词汇表
#inputSet :某个文档向量
def
setOfWords2Vec(vocabList, inputSet):
#创建所含元素全为0的向量
returnVec
=
[
0
]
*
len
(vocabList)
#依次取出文档中的单词与词汇表进行对照,若在词汇表中出现则为1
for
word
in
inputSet:
if
word
in
vocabList:
#单词在词汇表中出现,则记为1
returnVec[vocabList.index(word)]
=
1
#词集模型
#若测试文档的单词,不在词汇表中,显示提示信息,该单词出现次数用0表示
else
:
print
"the word: %s is not in my Vocabulary!"
%
word
return
returnVec
#====训练分类器,原始的朴素贝叶斯,没有优化=====
#输入trainMatrix:词向量数据集
#输入trainCategory:数据集对应的类别标签
#输出p0Vect:词汇表中各个单词在正常言论中的类条件概率密度
#输出p1Vect:词汇表中各个单词在侮辱性言论中的类条件概率密度
#输出pAbusive:侮辱性言论在整个数据集中的比例
def
trainNB00(trainMatrix,trainCategory):
#numTrainDocs训练集总条数
numTrainDocs
=
len
(trainMatrix)
#训练集中所有不重复单词总数
numWords
=
len
(trainMatrix[
0
])
#侮辱类的概率(侮辱类占总训练数据的比例)
pAbusive
=
sum
(trainCategory)
/
float
(numTrainDocs)
#*正常言论的类条件概率密度 p(某单词|正常言论)=p0Num/p0Denom
p0Num
=
zeros(numWords);
#初始化分子为0
#*侮辱性言论的类条件概率密度 p(某单词|侮辱性言论)=p1Num/p1Denom
p1Num
=
zeros(numWords)
#初始化分子为0
#初始化分母置为0
p0Denom
=
0
;
p1Denom
=
0
#遍历训练集数据
for
i
in
range
(numTrainDocs):
#若为侮辱类
if
trainCategory[i]
=
=
1
:
#统计侮辱类所有文档中的各个单词总数
p1Num
+
=
trainMatrix[i]
#p1Denom侮辱类总单词数
p1Denom
+
=
sum
(trainMatrix[i])
#若为正常类
else
:
#统计正常类所有文档中的各个单词总数
p0Num
+
=
trainMatrix[i]
#p0Denom正常类总单词数
p0Denom
+
=
sum
(trainMatrix[i])
#词汇表中的单词在侮辱性言论文档中的类条件概率
p1Vect
=
p1Num
/
p1Denom
#词汇表中的单词在正常性言论文档中的类条件概率
p0Vect
=
p0Num
/
p0Denom
return
p0Vect,p1Vect,pAbusive
#=====训练分类器,优化处理=====
#输入trainMatrix:词向量数据集
#输入trainCategory:数据集对应的类别标签
#输出p0Vect:词汇表中各个单词在正常言论中的类条件概率密度
#输出p1Vect:词汇表中各个单词在侮辱性言论中的类条件概率密度
#输出pAbusive:侮辱性言论在整个数据集中的比例
def
trainNB0(trainMatrix,trainCategory):
#训练集总条数:行数
numTrainDocs
=
len
(trainMatrix)
#训练集中所有单词总数:词向量维度
numWords
=
len
(trainMatrix[
0
])
#侮辱类的概率(侮辱类占总训练数据的比例)
pAbusive
=
sum
(trainCategory)
/
float
(numTrainDocs)
#*拉普拉斯平滑防止类条件概率为0,初始化分子为1,分母为2
#正常类向量置为1
p0Num
=
ones(numWords);
#初始化分子为1
#侮辱类向量置为1
p1Num
=
ones(numWords)
#初始化分子为1
#初始化分母置为2
p0Denom
=
2.0
;
p1Denom
=
2.0
#遍历训练集每个样本
for
i
in
range
(numTrainDocs):
#若为侮辱类
if
trainCategory[i]
=
=
1
:
#统计侮辱类所有文档中的各个单词总数
p1Num
+
=
trainMatrix[i]
#向量
#p1Denom侮辱类总单词数
p1Denom
+
=
sum
(trainMatrix[i])
#若为正常类
else
:
#统计正常类所有文档中的各个单词总数
p0Num
+
=
trainMatrix[i]
#p0Denom正常类总单词数
p0Denom
+
=
sum
(trainMatrix[i])
#数据取log,即单个单词的p(x1|c1)取log,防止下溢出
p1Vect
=
log(p1Num
/
p1Denom)
p0Vect
=
log(p0Num
/
p0Denom)
return
p0Vect,p1Vect,pAbusive
#vec2Classify:待分类文档
#p0Vect:词汇表中每个单词在训练样本的正常言论中的类条件概率密度
#p1Vect:词汇表中每个单词在训练样本的侮辱性言论中的类条件概率密度
#pClass1:侮辱性言论在训练集中所占的比例
def
classifyNB(vec2Classify, p0Vect, p1Vect, pClass1):
#在对数空间中进行计算,属于哪一类的概率比较大就判为哪一类
#print'0p1=',sum(vec2Classify * p0Vect) #查看结果
#print'0p0=',sum(vec2Classify * p0Vect)
p1
=
sum
(vec2Classify
*
p1Vect)
+
log(pClass1)
p0
=
sum
(vec2Classify
*
p0Vect)
+
log(
1.0
-
pClass1)
#print'p1=',p1
#print'p0=',p0
if
p1 > p0:
return
1
else
:
return
0
def
testingNB():
#获得训练数据,类别标签
listOPosts,listClasses
=
loadDataSet()
#创建词汇表
myVocabList
=
createVocabList(listOPosts)
#构建矩阵,存放训练数据
trainMat
=
[]
#遍历原始数据,转换为词向量,构成数据训练矩阵
for
postinDoc
in
listOPosts:
#数据转换后存入数据训练矩阵trainMat中
trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
#训练分类器
p0V,p1V,pAb
=
trainNB0(array(trainMat),array(listClasses))
#===测试数据(1)
testEntry
=
[
'love'
,
'my'
,
'dalmation'
]
#测试数据转为词向量
thisDoc
=
array(setOfWords2Vec(myVocabList, testEntry))
#输出分类结果
print
testEntry,
'classified as: '
,classifyNB(thisDoc,p0V,p1V,pAb)
#===测试数据(2)
testEntry
=
[
'stupid'
,
'garbage'
]
#测试数据转为词向量
thisDoc
=
array(setOfWords2Vec(myVocabList, testEntry))
#输出分类结果
print
testEntry,
'classified as: '
,classifyNB(thisDoc,p0V,p1V,pAb)
#***词袋模型:考虑单词出现的次数
#vocabList:词汇表
#inputSet :某个文档向量
def
bagOfWords2VecMN(vocabList, inputSet):
#创建所含元素全为0的向量
returnVec
=
[
0
]
*
len
(vocabList)
#依次取出文档中的单词与词汇表进行对照,统计单词在文档中出现的次数
for
word
in
inputSet:
if
word
in
vocabList:
#单词在文档中出现的次数
returnVec[vocabList.index(word)]
+
=
1
#若测试文档的单词,不在词汇表中,显示提示信息,该单词出现次数用0表示
else
:
print
"the word: %s is not in my Vocabulary!"
%
word
return
returnVec
#准备数据,按空格切分出词
#单词长度小于或等于2的全部丢弃
def
textParse(bigString):
import
re
listOfTokens
=
re.split(r
'\W*'
, bigString)
#tok.lower() 将整个词转换为小写
return
[tok.lower()
for
tok
in
listOfTokens
if
len
(tok) >
2
]
def
spamTest():
#文章按篇存放
docList
=
[];
#存放文章类别
classList
=
[];
#存放所有文章内容
fullText
=
[]
for
i
in
range
(
1
,
26
):
#读取垃圾邮件
#wordList = textParse(open('D:/work/python/email/spam/%d.txt' % i).read())
wordList
=
textParse(
open
(
'D:/machine learning/python/bayes/email/spam/%d.txt'
%
i).read())
#docList按篇存放文章
docList.append(wordList)
#fullText邮件内容存放到一起
fullText.extend(wordList)
#垃圾邮件类别标记为1
classList.append(
1
)
#读取正常邮件
#wordList = textParse(open('D:/work/python/email/ham/%d.txt' % i).read())
wordList
=
textParse(
open
(
'D:/machine learning/python/bayes/email/ham/%d.txt'
%
i).read())
docList.append(wordList)
fullText.extend(wordList)
#正常邮件类别标记为0
classList.append(
0
)
#创建词典
vocabList
=
createVocabList(docList)
#训练集共50篇文章
trainingSet
=
range
(
50
);
#创建测试集
testSet
=
[]
#随机选取10篇文章为测试集,测试集中文章从训练集中删除
for
i
in
range
(
10
):
#0-50间产生一个随机数
randIndex
=
int
(random.uniform(
0
,
len
(trainingSet)))
#从训练集中找到对应文章,加入测试集中
testSet.append(trainingSet[randIndex])
#删除对应文章
del
(trainingSet[randIndex])
#准备数据,用于训练分类器
trainMat
=
[];
#训练数据
trainClasses
=
[]
#类别标签
#遍历训练集中文章数据
for
docIndex
in
trainingSet:
#每篇文章转为词袋向量模型,存入trainMat数据矩阵中
trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
#trainClasses存放每篇文章的类别
trainClasses.append(classList[docIndex])
#训练分类器
p0V,p1V,pSpam
=
trainNB0(array(trainMat),array(trainClasses))
#errorCount记录测试数据出错次数
errorCount
=
0
#遍历测试数据集,每条数据相当于一条文本
for
docIndex
in
testSet:
#文本转换为词向量模型
wordVector
=
bagOfWords2VecMN(vocabList, docList[docIndex])
#模型给出的分类结果与本身类别不一致时,说明模型出错,errorCount数加1
if
classifyNB(array(wordVector),p0V,p1V,pSpam) !
=
classList[docIndex]:
errorCount
+
=
1
#输出出错的文章
print
"classification error"
,docList[docIndex]
#输出错误率,即出错次数/总测试次数
print
'the error rate is: '
,
float
(errorCount)
/
len
(testSet)
#return vocabList,fullText
if
__name__
=
=
"__main__"
:
###**********************留言板数据:观察参数值start
### #获取数据
listOPosts,listClasses
=
loadDataSet()
# #构建词汇表
myVocabList
=
createVocabList(listOPosts)
print
'myVocabList='
,myVocabList
print
'result='
,setOfWords2Vec(myVocabList, listOPosts[
0
])
trainMat
=
[]
for
postinDoc
in
listOPosts:
#构建训练矩阵
trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0Vect,p1Vect,pAbusive
=
trainNB0(trainMat, listClasses)
print
'p0Vect='
print
p0Vect
print
'p1Vect='
print
p1Vect
print
'pAbusive='
print
pAbusive
print
'trainMatrix='
print
trainMat
print
'listClasses='
,listClasses
###**********************留言板数据:观察参数值end
## #测试留言板文档
print
'==================================='
testingNB()
#***********************垃圾邮件
## #垃圾邮件分类
print
'=======spam filtering============='
spamTest()
|
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://blog.csdn.net/qq_36047182/article/details/79753395 。
最后此篇关于朴素贝叶斯Python实例及解析的文章就讲到这里了,如果你想了解更多关于朴素贝叶斯Python实例及解析的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
有没有一种方法可以使用标准类型构造函数(例如 int、set、dict、list、tuple 等)以用户定义的方式将用户定义类的实例强制转换为其中一种类型?例如 class Example:
我知道这个问题在Stackoverflow中有很多问题,但是即使有很多答案,这些答案也帮不了我什么,也没有找到答案。 在我的WebAPP中,它可以正常工作,但是当我将其转换为API时,它失败了(主题标
这个问题已经有答案了: Why does the ternary operator unexpectedly cast integers? (3 个回答) 已关闭 9 年前。 最近遇到一个Java的陷
我尝试使用 FirebaseApp.configure() 配置 Firebase,但遇到以下崩溃: *** Terminating app due to uncaught exception 'c
我有一个自连接员工实体类,其中包含与其自身相关的 id、name 和 ref 列。我想创建它的新实例并将其保存到数据库。 首先我创建了一个 Employee 类的实例并将其命名为 manager。然后
我有一个用于添加新公寓的表单,在该表单中我有一个下拉列表,用户可以在其中选择负责的人员。 显然,当您从下拉列表中选择并尝试保存公寓时,我的应用程序认为该人已被修改。它给了我下面的错误,指示我应该首先保
从 Visualforce 页面,我需要检索我们组织的 salesforce 实例的 URL,而不是 Visual Force URL。 例如我需要https://cs1.salesforce.com
我遇到了一些可能的问题答案,但这是关于从 Hibernate 3.4.0GA 升级到 Hibernate 4.1.8 的问题。所以这曾经在以前的版本下工作,我已经四处搜索了为什么它在这个新版本中出现了
似乎一遍又一遍地问这个问题,我仍然找不到解决我问题的答案。我在下面有一个域模型。每个新创建或更新的“安全用户”都需要我确保其具有配置文件,如果没有,则创建一个新的配置文件并分配给它。 配置文件的要求相
我很难调试为什么 JPA 不级联我的 @ManyToMany 关系。我发现的所有答案都与缺少级联语句有关。但我确实拥有它们并且仍然得到: Caused by: org.hibernate.Transi
Play 服务 API 表明有一个叫做 Instance ID 的东西 但是,在 Android Studio 中包含以下内容后,我无法导入 InstanceID 类 compile "com.goo
我正在使用 Seam 框架。我有 2 个实体: 请求.java @Entity @Table(name = "SRV_REQUEST") public class Request { private
This question处理构建一个适当的Monad来自单子(monad)的实例,但仅在某些约束下 - 例如Set .诀窍是将其包装成 ContT ,它将约束推迟到包装/展开其值。 现在我想对 Ap
我正在尝试执行此查询: StringBuffer sb = new StringBuffer(); sb.append("select p from PointsEntity p " + "where
我试图了解是否可以更改我的 hibernate 配置并使用单个 MySQL 实例(而不是我当前拥有的多个 MySQL 实例): 我有一个使用 hibernate 的 Java 应用程序,与 2 个模式
我有一个选项卡滑动布局,其中包括四个选项卡,每个选项卡都有自己的布局和 fragment ,在我的主要 Activity 布局中,viewpager 参与更改选项卡。特定 View (选项卡)在应用程
我看到很多帖子声称他们正在运行 MySql 的 RDS 实例,但无法连接到该实例,但我没有运行 RDS。 我使用 EC2 实例来托管我的 WordPress 博客,该博客是使用 Web 平台安装程序安
因为我在我的 ec-2 实例上的 python 虚拟环境中运行应用程序( Airflow ),并且我想在同一个 ec2 实例上的默认 python 环境中运行命令,所以我认为 ssh 到我自己的实例更
这个问题已经有答案了: How to fix the Hibernate "object references an unsaved transient instance - save the tra
例子: run APP1 .. ... run APP1 ... run APP2 如何在 APP2 中对 Vue 说我需要调用 APP1?
我是一名优秀的程序员,十分优秀!