- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章python实现协同过滤推荐算法完整代码示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
测试数据 。
http://grouplens.org/datasets/movielens/ 。
协同过滤推荐算法主要分为:
1、基于用户。根据相邻用户,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表进行推荐 。
2、基于物品。如喜欢物品A的用户都喜欢物品C,那么可以知道物品A与物品C的相似度很高,而用户C喜欢物品A,那么可以推断出用户C也可能喜欢物品C.
不同的数据、不同的程序猿写出的协同过滤推荐算法不同,但其核心是一致的:
1、收集用户的偏好 。
1)不同行为分组 。
2)不同分组进行加权计算用户的总喜好 。
3)数据去噪和归一化 。
2、找到相似用户(基于用户)或者物品(基于物品) 。
3、计算相似度并进行排序。根据相似度为用户进行推荐 。
本次实例过程:
1、初始化数据 。
获取movies和ratings 。
转换成数据userDict表示某个用户的所有电影的评分集合,并对评分除以5进行归一化 。
转换成数据ItemUser表示某部电影参与评分的所有用户集合 。
2、计算所有用户与userId的相似度 。
找出所有观看电影与userId有交集的用户 。
对这些用户循环计算与userId的相似度 。
获取A用户与userId的并集。格式为:{'电影ID',[A用户的评分,userId的评分]},没有评分记为0 。
计算A用户与userId的余弦距离,越大越相似 。
3、根据相似度生成推荐电影列表 。
4、输出推荐列表和准确率 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
|
#!/usr/bin/python3
# -*- coding: utf-8 -*-
from
numpy
import
*
import
time
from
texttable
import
Texttable
class
CF:
def
__init__(
self
, movies, ratings, k
=
5
, n
=
10
):
self
.movies
=
movies
self
.ratings
=
ratings
# 邻居个数
self
.k
=
k
# 推荐个数
self
.n
=
n
# 用户对电影的评分
# 数据格式{'UserID:用户ID':[(MovieID:电影ID,Rating:用户对电影的评星)]}
self
.userDict
=
{}
# 对某电影评分的用户
# 数据格式:{'MovieID:电影ID',[UserID:用户ID]}
# {'1',[1,2,3..],...}
self
.ItemUser
=
{}
# 邻居的信息
self
.neighbors
=
[]
# 推荐列表
self
.recommandList
=
[]
self
.cost
=
0.0
# 基于用户的推荐
# 根据对电影的评分计算用户之间的相似度
def
recommendByUser(
self
, userId):
self
.formatRate()
# 推荐个数 等于 本身评分电影个数,用户计算准确率
self
.n
=
len
(
self
.userDict[userId])
self
.getNearestNeighbor(userId)
self
.getrecommandList(userId)
self
.getPrecision(userId)
# 获取推荐列表
def
getrecommandList(
self
, userId):
self
.recommandList
=
[]
# 建立推荐字典
recommandDict
=
{}
for
neighbor
in
self
.neighbors:
movies
=
self
.userDict[neighbor[
1
]]
for
movie
in
movies:
if
(movie[
0
]
in
recommandDict):
recommandDict[movie[
0
]]
+
=
neighbor[
0
]
else
:
recommandDict[movie[
0
]]
=
neighbor[
0
]
# 建立推荐列表
for
key
in
recommandDict:
self
.recommandList.append([recommandDict[key], key])
self
.recommandList.sort(reverse
=
True
)
self
.recommandList
=
self
.recommandList[:
self
.n]
# 将ratings转换为userDict和ItemUser
def
formatRate(
self
):
self
.userDict
=
{}
self
.ItemUser
=
{}
for
i
in
self
.ratings:
# 评分最高为5 除以5 进行数据归一化
temp
=
(i[
1
],
float
(i[
2
])
/
5
)
# 计算userDict {'1':[(1,5),(2,5)...],'2':[...]...}
if
(i[
0
]
in
self
.userDict):
self
.userDict[i[
0
]].append(temp)
else
:
self
.userDict[i[
0
]]
=
[temp]
# 计算ItemUser {'1',[1,2,3..],...}
if
(i[
1
]
in
self
.ItemUser):
self
.ItemUser[i[
1
]].append(i[
0
])
else
:
self
.ItemUser[i[
1
]]
=
[i[
0
]]
# 找到某用户的相邻用户
def
getNearestNeighbor(
self
, userId):
neighbors
=
[]
self
.neighbors
=
[]
# 获取userId评分的电影都有那些用户也评过分
for
i
in
self
.userDict[userId]:
for
j
in
self
.ItemUser[i[
0
]]:
if
(j !
=
userId
and
j
not
in
neighbors):
neighbors.append(j)
# 计算这些用户与userId的相似度并排序
for
i
in
neighbors:
dist
=
self
.getCost(userId, i)
self
.neighbors.append([dist, i])
# 排序默认是升序,reverse=True表示降序
self
.neighbors.sort(reverse
=
True
)
self
.neighbors
=
self
.neighbors[:
self
.k]
# 格式化userDict数据
def
formatuserDict(
self
, userId, l):
user
=
{}
for
i
in
self
.userDict[userId]:
user[i[
0
]]
=
[i[
1
],
0
]
for
j
in
self
.userDict[l]:
if
(j[
0
]
not
in
user):
user[j[
0
]]
=
[
0
, j[
1
]]
else
:
user[j[
0
]][
1
]
=
j[
1
]
return
user
# 计算余弦距离
def
getCost(
self
, userId, l):
# 获取用户userId和l评分电影的并集
# {'电影ID':[userId的评分,l的评分]} 没有评分为0
user
=
self
.formatuserDict(userId, l)
x
=
0.0
y
=
0.0
z
=
0.0
for
k, v
in
user.items():
x
+
=
float
(v[
0
])
*
float
(v[
0
])
y
+
=
float
(v[
1
])
*
float
(v[
1
])
z
+
=
float
(v[
0
])
*
float
(v[
1
])
if
(z
=
=
0.0
):
return
0
return
z
/
sqrt(x
*
y)
# 推荐的准确率
def
getPrecision(
self
, userId):
user
=
[i[
0
]
for
i
in
self
.userDict[userId]]
recommand
=
[i[
1
]
for
i
in
self
.recommandList]
count
=
0.0
if
(
len
(user) >
=
len
(recommand)):
for
i
in
recommand:
if
(i
in
user):
count
+
=
1.0
self
.cost
=
count
/
len
(recommand)
else
:
for
i
in
user:
if
(i
in
recommand):
count
+
=
1.0
self
.cost
=
count
/
len
(user)
# 显示推荐列表
def
showTable(
self
):
neighbors_id
=
[i[
1
]
for
i
in
self
.neighbors]
table
=
Texttable()
table.set_deco(Texttable.HEADER)
table.set_cols_dtype([
"t"
,
"t"
,
"t"
,
"t"
])
table.set_cols_align([
"l"
,
"l"
,
"l"
,
"l"
])
rows
=
[]
rows.append([u
"movie ID"
, u
"Name"
, u
"release"
, u
"from userID"
])
for
item
in
self
.recommandList:
fromID
=
[]
for
i
in
self
.movies:
if
i[
0
]
=
=
item[
1
]:
movie
=
i
break
for
i
in
self
.ItemUser[item[
1
]]:
if
i
in
neighbors_id:
fromID.append(i)
movie.append(fromID)
rows.append(movie)
table.add_rows(rows)
print
(table.draw())
# 获取数据
def
readFile(filename):
files
=
open
(filename,
"r"
, encoding
=
"utf-8"
)
# 如果读取不成功试一下
# files = open(filename, "r", encoding="iso-8859-15")
data
=
[]
for
line
in
files.readlines():
item
=
line.strip().split(
"::"
)
data.append(item)
return
data
# -------------------------开始-------------------------------
start
=
time.clock()
movies
=
readFile(
"/home/hadoop/Python/CF/movies.dat"
)
ratings
=
readFile(
"/home/hadoop/Python/CF/ratings.dat"
)
demo
=
CF(movies, ratings, k
=
20
)
demo.recommendByUser(
"100"
)
print
(
"推荐列表为:"
)
demo.showTable()
print
(
"处理的数据为%d条"
%
(
len
(demo.ratings)))
print
(
"准确率: %.2f %%"
%
(demo.cost
*
100
))
end
=
time.clock()
print
(
"耗费时间: %f s"
%
(end
-
start))
|
总结 。
以上就是本文关于python实现协同过滤推荐算法完整代码示例的全部内容,希望对大家有所帮助。如有不足之处,欢迎留言指出。感谢朋友们对本站的支持! 。
原文链接:http://blog.csdn.net/qq_20282263/article/details/52692318 。
最后此篇关于python实现协同过滤推荐算法完整代码示例的文章就讲到这里了,如果你想了解更多关于python实现协同过滤推荐算法完整代码示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
滑动窗口限流 滑动窗口限流是一种常用的限流算法,通过维护一个固定大小的窗口,在单位时间内允许通过的请求次数不超过设定的阈值。具体来说,滑动窗口限流算法通常包括以下几个步骤: 初始化:设置窗口
表达式求值:一个只有+,-,*,/的表达式,没有括号 一种神奇的做法:使用数组存储数字和运算符,先把优先级别高的乘法和除法计算出来,再计算加法和减法 int GetVal(string s){
【算法】前缀和 题目 先来看一道题目:(前缀和模板题) 已知一个数组A[],现在想要求出其中一些数字的和。 输入格式: 先是整数N,M,表示一共有N个数字,有M组询问 接下来有N个数,表示A[1]..
1.前序遍历 根-左-右的顺序遍历,可以使用递归 void preOrder(Node *u){ if(u==NULL)return; printf("%d ",u->val);
先看题目 物品不能分隔,必须全部取走或者留下,因此称为01背包 (只有不取和取两种状态) 看第一个样例 我们需要把4个物品装入一个容量为10的背包 我们可以简化问题,从小到大入手分析 weightva
我最近在一次采访中遇到了这个问题: 给出以下矩阵: [[ R R R R R R], [ R B B B R R], [ B R R R B B], [ R B R R R R]] 找出是否有任
我正在尝试通过 C++ 算法从我的 outlook 帐户发送一封电子邮件,该帐户已经打开并记录,但真的不知道从哪里开始(对于 outlook-c++ 集成),谷歌也没有帮我这么多。任何提示将不胜感激。
我发现自己像这样编写了一个手工制作的 while 循环: std::list foo; // In my case, map, but list is simpler auto currentPoin
我有用于检测正方形的 opencv 代码。现在我想在检测正方形后,代码运行另一个命令。 代码如下: #include "cv.h" #include "cxcore.h" #include "high
我正在尝试模拟一个 matlab 函数“imfill”来填充二进制图像(1 和 0 的二维矩阵)。 我想在矩阵中指定一个起点,并像 imfill 的 4 连接版本那样进行洪水填充。 这是否已经存在于
我正在阅读 Robert Sedgewick 的《C++ 算法》。 Basic recurrences section it was mentioned as 这种循环出现在循环输入以消除一个项目的递
我正在思考如何在我的日历中生成代表任务的数据结构(仅供我个人使用)。我有来自 DBMS 的按日期排序的任务记录,如下所示: 买牛奶(18.1.2013) 任务日期 (2013-01-15) 任务标签(
输入一个未排序的整数数组A[1..n]只有 O(d) :(d int) 计算每个元素在单次迭代中出现在列表中的次数。 map 是balanced Binary Search Tree基于确保 O(nl
我遇到了一个问题,但我仍然不知道如何解决。我想出了如何用蛮力的方式来做到这一点,但是当有成千上万的元素时它就不起作用了。 Problem: Say you are given the followin
我有一个列表列表。 L1= [[...][...][.......].......]如果我在展平列表后获取所有元素并从中提取唯一值,那么我会得到一个列表 L2。我有另一个列表 L3,它是 L2 的某个
我们得到二维矩阵数组(假设长度为 i 和宽度为 j)和整数 k我们必须找到包含这个或更大总和的最小矩形的大小F.e k=7 4 1 1 1 1 1 4 4 Anwser是2,因为4+4=8 >= 7,
我实行 3 类倒制,每周换类。顺序为早类 (m)、晚类 (n) 和下午类 (a)。我固定的订单,即它永远不会改变,即使那个星期不工作也是如此。 我创建了一个函数来获取 ISO 周数。当我给它一个日期时
假设我们有一个输入,它是一个元素列表: {a, b, c, d, e, f} 还有不同的集合,可能包含这些元素的任意组合,也可能包含不在输入列表中的其他元素: A:{e,f} B:{d,f,a} C:
我有一个子集算法,可以找到给定集合的所有子集。原始集合的问题在于它是一个不断增长的集合,如果向其中添加元素,我需要再次重新计算它的子集。 有没有一种方法可以优化子集算法,该算法可以从最后一个计算点重新
我有一个包含 100 万个符号及其预期频率的表格。 我想通过为每个符号分配一个唯一(且前缀唯一)的可变长度位串来压缩这些符号的序列,然后将它们连接在一起以表示序列。 我想分配这些位串,以使编码序列的预
我是一名优秀的程序员,十分优秀!